ผลต่างระหว่างรุ่นของ "การรู้จำอักขระด้วยแสง"

เนื้อหาที่ลบ เนื้อหาที่เพิ่ม
BotKung (คุย | ส่วนร่วม)
ใส่ลิงก์ข้ามภาษาด้วยบอต
ไม่มีความย่อการแก้ไข
บรรทัด 2:
{{ตรวจลิขสิทธิ์}}
 
'''การรู้จำอักขระทางภาพ''' ({{lang-en|optical character recognition}}) หรือมักเรียกอย่างย่อว่า '''โอซีอาร์''' ({{lang-en|OCR}}) คือกระบวนการทางจักรกลหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์ การจับภาพอาจทำโดยเครื่อง[[สแกนเนอร์]] [[กล้องดิจิทัล]]
'''โอซีอาร์''' ({{lang-en|OCR - Optical character recognition}}) หรือ '''เครื่องจำอักขระด้วยแสง''' คือ[[ซอฟต์แวร์]]อย่างหนึ่งที่ออกแบบเพื่อให้แปลความหมายที่ปรากฏใน[[ไฟล์]]รูปภาพ ไปเป็นข้อมูลที่สามารถประมวลผลได้ โดยปกติการนำเข้ารูปภาพเพื่อเข้าสู่กระบวนการแปลสามารถใช้เครื่อง[[สแกนเนอร์]]หรือ[[กล้องดิจิตัล]] หรืออุปกรณ์ที่ออกแบบมาเฉพาะทาง โอซีอาร์เริ่มมีขึ้นโดยเป็นโครงการของการตรวจสอบในระบบ[[ปัญญาประดิษฐ์]]และ[[การมองเห็นของเครื่องจักร]] และมีการวิจัยต่อไปโดยมุ่งประเด็นไปที่การใช้โอซีอาร์เป็นเครื่องมือในการพิสูจน์ เช่น พิสูจน์อักษร ลายมือ ลายนิ้วมือ ใบหน้า ดวงตา เป็นต้น
 
โอซีอาร์เป็นสาขาวิจัยใน[[การรู้จำแบบ]], [[ปัญญาประดิษฐ์]], และ[[คอมพิวเตอร์วิทัศน์]]
แม้การวิจัยเชิงวิชาการในสาขายังคงดำเนินอยู่ แต่จุดเน้นในสาขาโอซีอาร์ได้เปลี่ยนไปสู่การสร้างระบบที่ใช้ได้จริงจากเทคนิคที่พิสูจน์แล้ว การรู้จำอักขระทางแสง (optical character recognition การใช้เทคนิคทางแสง เช่นกระจกและเลนส์) การรู้จำอักขระทางดิจิทัล (digital character recognition การใช้เทคนิคทางดิจิทัล เช่นสแกนเนอร์และอัลกอริธึมคอมพิวเตอร์) เดิมเคยเป็นสาขาที่แยกจากกัน แต่เนื่องจากเหลือการใช้งานน้อยมากที่ใช้เฉพาะเทคนิคทางแสง คำว่า โอซีอาร์ ในปัจจุบันจึงกินความกว้างถึงการประมวลผลภาพทางดิจิทัลด้วยเช่นกัน
 
ระบบในสมัยเริ่มแรกต้องการการฝึกฝน (สอนตัวอย่างที่รู้จักแล้วของแต่ละตัวอักษร) เพื่ออ่านฟอนต์หนึ่ง ๆ
ปัจจุบัน ระบบ "อัจฉริยะ" ที่สามารถอ่านฟอนต์ส่วนใหญ่ได้แม่นยำสูงนั้นสามารถพบได้ทั่วไป
บางระบบถึงกับสามารถคงรูปแบบการจัดหน้าเดิมไว้ได้เกือบหมด ซึ่งรวมถึง รูปภาพ การแบ่งคอลัมน์ และส่วนประกอบที่ไม่ใช่ข้อความอื่น ๆ
 
== ประวัติ ==
[[ไฟล์:Scanner.JPG|thumb|300px|right|หลักการทำงานเครื่องเรทินาสแกนของ George Carey [http://www.diac.upm.es/acceso_profesores/asignaturas/television/stv/historiatv/] ]]
ระบบโอซีอาร์ไม่ใช่เรื่องใหม่สำหรับกระบวนการประมวลผลข้อมูล เนื่องจากความพยายามที่จะพัฒนาเครื่องช่วยอ่านตัวอักษรอัตโนมัติเพื่อช่วยงานมนุษย์นั้น มีการคิดค้นกันมากกว่าร้อยปีแล้ว ถ้าหากจะกล่าวถึงประวัติของโอซีอาร์ ก็น่าจะเริ่มต้นกันที่คำว่า optical ซึ่งบอกถึงหลักการทำงานของระบบที่เกี่ยวข้องกับการประมวลผลของภาพ[[อิเล็กทรอนิกส์]]ที่ได้มาจากเครื่องสแกน ซึ่งมีจุดเริ่มต้นในปี พ.ศ. 2416 โดยพนักงานโทรเลขชาวไอแลนด์ชื่อ Joseph May ได้ค้นพบคุณสมบัติทางโฟโตอิเล็กทริค (photoelectric) จาก[[ซีลีเนียม]] (selenium) โดยบังเอิญ จากนั้นในปี พ.ศ. 2418 ในประเทศสหรัฐอเมริกา George Carey ได้นำเสนอเครื่องสแกนเรทินาสแกนเนอร์ทินา (retina scanner) ที่สามารถถ่ายทอดสัญญาณภาพจากแผงโฟโตอิเล็กทริคเซลที่รับแสงสะท้อนจากภาพแล้วแสดงผลที่แผงอีกด้านหนึ่ง
 
[[ไฟล์:Nipkow.JPG|thumb|300px|right|Niokow disk [http://www.diac.upm.es/acceso profesores/asignaturas/television/stv/historiatv/]]และต่อมาในปี พ.ศ. 2427 Paul Nipkow ชาวเยอรมันได้คิดค้นเครื่องสแกนภาพแบบใหม่ที่ใช้จานหมุนที่มีรูเล็กๆ เรียงกันในลักษณะเป็นก้นหอยเรียกว่านิพโกว์ดิสก์ (Nipkow disk) ในการอ่านภาพ ซึ่งถือเป็นประดิษฐ์กรรมต้นแบบของเครื่องสแกนรวมทั้งเทคโนโลยีการถ่ายทอดภาพของวงการโทรทัศน์ในปัจจุบันอีกด้วย
 
เครื่องอ่านตัวอักษรเครื่องแรกที่มีการรายงานไว้เป็นเครื่องที่ทำขึ้นเพื่อช่วยคนพิการทางตาในการอ่านหนังสือซึ่งเป็นผลงานของนักวิทยาศาสตร์ชาวรัสเซียชื่อ Tyurin สร้างขึ้นในปี พ.ศ. 2443 จากนั้นในปี พ.ศ. 2472 G. Tausheck ได้จดสิทธิบัตรระบบโอซีอาร์เป็นครั้งแรกในประเทศเยอรมนี และต่อมาปี พ.ศ. 2476 ในอเมริกา P.W. Handel ก็ได้จดสิทธิบัตรโอซีอาร์ของตนเองเช่นกัน ถึงแม้เริ่มแรกระบบโอซีอาร์ดังกล่าวจะมีลักษณะและความสามารถที่เทียบไม่ได้กับระบบโอซีอาร์ที่เราใช้กันอยู่ในปัจจุบัน แต่แนวความคิดพื้นฐานของระบบดังกล่าวก็ยังคงใช้กันอยู่จนกระทั่งถึงทุกวันนี้
 
 
 
 
ความแตกต่างของระบบโอซีอาร์ในยุคแรกๆ ที่เห็นได้ชัดคือ ลักษณะที่เป็นชุดอุปกรณ์ฮาร์ดแวร์ที่พ่วงติดกับเครื่องสแกน แทนที่จะเป็นชุดซอฟต์แวร์ที่ใช้กับเครื่องคอมพิวเตอร์แบบตั้งโต๊ะ (การกล่าวถึงชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์ผู้เขียนขอใช้คำว่า “ระบบโอซีอาร์” แทนที่จะเป็น “โปรแกรมโอซีอาร์“ ซึ่งจะหมายถึงชุดซอฟต์แวร์โอซีอาร์ที่ใช้กับเครื่องคอมพิวเตอร์ ทั้งนี้เพื่อความชัดเจนในการใช้คำ) โดยโอซีอาร์ยุคแรกๆ จะมีลักษณะออกไปทางเครื่องจักรกล ซึ่งต่อมาได้รับการพัฒนาเป็นเครื่องอิเล็กทรอนิกส์แบบอนาล็อก แล้วจึงมาเป็นระบบดิจิตอลอย่างเช่นในปัจจุบัน ทุกวันนี้ชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์เช่นนี้ก็ยังคงมีการผลิตอยู่และมีราคาสูงมาก เพื่อใช้ในการแปลงเอกสารหรือแบบฟอร์มเฉพาะด้านที่มีปริมาณมากๆ เครื่องพวกนี้จะมีประสิทธิภาพการทำงานสูง ตัวอย่างการใช้งานโอซีอาร์แบบนี้ ได้แก่ ระบบอ่านรหัสไปรษณีย์เพื่อแยกจดหมายอัตโนมัติ และระบบสำหรับอ่านหมายเลขเช็ค เป็นต้น
เส้น 32 ⟶ 36:
'''''ยุคที่ 3'''''
ยุคนี้ให้ความสนใจกับเอกสารตัวพิมพ์ที่มีคุณภาพต่ำและตัวอักษรลายมือเขียนที่มีกลุ่มตัวอักษรหลากหลายมากขึ้น เช่น ตัวอักษรภาษาจีน เป็นต้น โดยที่โอซีอาร์เชิงพาณิชย์ของยุคนี้ออกสู่ท้องตลาดในช่วงประมาณ พ.ศ. 2518 ถึง พ.ศ. 2528 เราอาจจะแบ่งโอซีอาร์ยุคนี้ออกเป็นกลุ่มย่อยลงไปได้อีกดัง
1.# โอซีอาร์สำหรับเอกสารคุณภาพต่ำ เป็นโอซีอาร์ที่สามารถอ่านเอกสารซึ่งมีปัญหาเนื่องมาจากรอยเปื้อน (noise) และตัวอักษรที่ไม่ชัดเจน ตัวอย่างของโอซีอาร์ ในกลุ่มนี้ได้แก่ OCR-V100 ของ Toshiba และ IBM 1975
2.# ระบบอ่านเอกสารลายมือเขียน โดยเน้นที่เอกสารที่มีทั้งตัวเลขและตัวอักษรเพื่อใช้ในการแปลงข้อมูลที่ได้มาจากแบบฟอร์มต่างๆ
3.# ชุดซอฟต์แวร์ แทนที่จะพัฒนาระบบที่ประกอบด้วยอุปกรณ์ฮาร์ดแวร์เช่นแต่ก่อน โอซีอาร์สมัยใหม่เริ่มมีการผลิตเป็นซอฟต์แวร์สำหรับใช้กับเครื่องพีซี โดยอาจจะพ่วงมากับเครื่องสแกนแบบตั้งโต๊ะหรือมือถือ ซอฟต์แวร์เหล่านี้จะมีราคาที่ถูกลงตามลำดับ ซอฟต์แวร์โอซีอาร์ที่ค่อนข้างมีชื่อเสียง ได้แก่ Omnipage ของบริษัท Caere Corporation , WordScan ของ Calera และ Discover ของ Xerox Image System เป็นต้น
 
 
'''ประวัติการวิจัยและพัฒนาโอซีอาร์ภาษาไทย'''
เส้น 49 ⟶ 52:
ก่อนที่จะกล่าวถึงรายละเอียดทางด้านเทคนิคเราควรทำความเข้าใจกับคำว่า “Optical Character Recognition” หรือ OCR กันก่อน ซึ่งถ้าจะแปลเป็นภาษาไทยอย่างตรงไปตรงมา ก็คงจะได้ว่า “การรู้จำตัวอักษรโดยการมองเห็น (ภาพ) ” ซึ่งเห็นได้ชัดว่าถ้าจะอธิบายให้คนที่ไม่รู้จักโอซีอาร์ฟัง แล้วเข้าใจด้วยละก็ จำเป็นจะต้องมาแปลให้เป็นภาษาไทยกันอีกที แบบที่จะสามารถเข้าใจกันได้ง่ายๆกว่านี้ ฉะนั้นเราน่าจะมาลองแปลกันใหม่ดีกว่า
 
เริ่มจากคำว่า Opticaloptical ซึ่งในที่นี้หมายถึงการอ่านภาพ (ตัวอักษร) ด้วยอุปกรณ์ตรวจจับความเข้มของแสง ซึ่งก็คือเครื่องสแกนหรืออุปกรณ์ที่ทำงานในลักษณะเดียวกันนี้นั่นเอง ที่เป็นตัวรับข้อมูลเข้ามาเป็นรูปภาพ เพื่อนำไปสู่กระบวนการขั้นต่อๆ ไปของโปรแกรม การที่จะต้องมีคำนี้ประกอบอยู่ด้วยนั้น สืบเนื่องมาจากความพยายามที่จะสร้างเครื่องอ่านเอกสารอัตโนมัติในยุคแรกๆ ซึ่งนอกจากการอ่านข้อมูลแบบ Opticaloptical แล้ว ยังมีการใช้วิธีการทางด้าน Magnetic แม่เหล็กและ Mechanic กลไกด้วย ถึงแม้ในปัจจุบันเราจะไม่ได้ใช้วิธีการทั้งสองแบบหลังนี้แล้วก็ตาม คำว่า Opticaloptical ก็ยังคงอยู่ เพราะคนส่วนใหญ่จะรู้จักคำว่า OCR ในแง่เป็นคำเฉพาะที่หมายถึงซอฟต์แวร์ประเภทนี้ไปแล้ว ดังนั้นการที่จะเอาตัว O หรือ Opticaloptical ออกนั้นคงจะสายเกินไป คำต่อมา Charactercharacter ก็คือตัวอักษร เพื่อระบุว่าตัวโปรแกรมนั้นทำงานกับอะไร ซึ่งก็คือตัวอักษรที่จะถูกแปลงจากรูปตัวอักษรมาเป็นรหัสตัวอักษร ที่เราสามารถใช้เวิร์ดโปรเซสเซอร์เปลี่ยนแปลงแก้ไขได้ (และต่อจากนี้ขอใช้คำว่ารูปตัวอักษรและรหัสตัวอักษรในการอ้างอิงถึงตัวอักษรทั้งสองแบบดังกล่าว เพื่อให้เกิดความเข้าใจที่ชัดเจนในการสื่อความหมาย) นอกจากนี้ชนิดของตัวอักษรยังใช้เป็นเกณฑ์ในการแบ่งประเภทของโอซีอาร์ด้วยเช่น ตัวพิมพ์ ตัวเขียน เป็นต้น ซึ่งจะกล่าวถึงในหัวข้อถัดไป ส่วนคำสุดท้าย Recognitionrecognition หมายถึงการบอกว่ารูปภาพของตัวอักษรนั้นเป็นตัวอะไร โดยแปลงให้เป็นรหัสตัวอักษรที่เครื่องคอมพิวเตอร์สามารถนำไปทำงานอื่นๆ ได้ เนื่องจากตัวอักษรตัวหนึ่งๆ สามารถเขียนได้หลากหลายลักษณะ ทำให้งานส่วนนี้กลายเป็นส่วนที่สำคัญที่สุดของระบบ และมีความยุ่งยากซับซ้อนมาก ถึงตอนนี้ลองมาสรุปความหมายของคำว่า “Opticaloptical Charactercharacter Recognition”recognition” กันอีกครั้ง ซึ่งน่าจะแปลว่าโปรแกรมที่แปลงภาพตัวอักษรที่ได้จากเครื่องสแกนเนอร์ให้เป็นรหัสตัวอักษรที่เราสามารถเอาไปใช้กับเวิร์ดโปรเซสเซอร์เพื่อที่จะเปลี่ยนแปลงแก้ไขเพิ่มเติมได้
 
 
'''ประเภทของโอซีอาร์'''
เส้น 59 ⟶ 61:
[[ไฟล์:เทคโนโลยีโอซีอาร์.JPG|center|เทคโนโลยีโอซีอาร์]]
 
1. การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)
 
1.การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)
[[ไฟล์:รู้จำแบบออนไลน์.JPG|frame|right|อุปกรณ์รู้จำแบบออนไลน์]]
กลุ่มนี้จะต่างจากกลุ่มอื่นๆ ในแง่ของวิธีการอินพุตข้อมูล ซึ่งจะได้มาจากดิจิไทเซอร์หรือปากกาอิเล็กทรอนิกส์ที่ใช้กับเครื่องคอมพิวเตอร์มือถือ ส่วนการวิเคราะห์ตัวอักษรจะทำในขณะที่มีการลากเส้นเพื่อเขียนตัวอักษร (ออนไลน์) ซึ่งมีวิธีการทำงานที่ต่างจากวิธีการอื่นๆ ถ้าจะเทียบความยากง่ายกับการรู้จำลายมือเขียนแบบออฟไลน์ กลุ่มนี้จะง่ายกว่าเพราะจะได้ข้อมูลเพิ่มเติมเกี่ยวกับทิศทางและลำดับการลากเส้นมาช่วยด้วย โอซีอาร์กลุ่มนี้มักมาพร้อมกับอุปกรณ์การเขียนที่จะกำหนดพื้นที่ให้อินพุตข้อมูล โดยส่วนใหญ่มักต้องเขียนทีละตัวอักษร ความก้าวหน้าของเทคโนโลยีด้านนี้จะมีผลเป็นอย่างมากต่อการเจริญเติบโตของธุรกิจในวงการเครื่องคอมพิวเตอร์มือถือที่เป็นคอมพิวเตอร์ขนาดเล็ก ซึ่งต้องอาศัยการใส่อินพุตจากปากกาอิเล็กทรอนิกส์แทนคีย์บอร์ด