ผลต่างระหว่างรุ่นของ "การรู้จำอักขระด้วยแสง"
เนื้อหาที่ลบ เนื้อหาที่เพิ่ม
ล ใส่ลิงก์ข้ามภาษาด้วยบอต |
ไม่มีความย่อการแก้ไข |
||
บรรทัด 2:
{{ตรวจลิขสิทธิ์}}
'''การรู้จำอักขระทางภาพ''' ({{lang-en|optical character recognition}}) หรือมักเรียกอย่างย่อว่า '''โอซีอาร์''' ({{lang-en|OCR}}) คือกระบวนการทางจักรกลหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์ การจับภาพอาจทำโดยเครื่อง[[สแกนเนอร์]] [[กล้องดิจิทัล]]
โอซีอาร์เป็นสาขาวิจัยใน[[การรู้จำแบบ]], [[ปัญญาประดิษฐ์]], และ[[คอมพิวเตอร์วิทัศน์]]
แม้การวิจัยเชิงวิชาการในสาขายังคงดำเนินอยู่ แต่จุดเน้นในสาขาโอซีอาร์ได้เปลี่ยนไปสู่การสร้างระบบที่ใช้ได้จริงจากเทคนิคที่พิสูจน์แล้ว การรู้จำอักขระทางแสง (optical character recognition การใช้เทคนิคทางแสง เช่นกระจกและเลนส์) การรู้จำอักขระทางดิจิทัล (digital character recognition การใช้เทคนิคทางดิจิทัล เช่นสแกนเนอร์และอัลกอริธึมคอมพิวเตอร์) เดิมเคยเป็นสาขาที่แยกจากกัน แต่เนื่องจากเหลือการใช้งานน้อยมากที่ใช้เฉพาะเทคนิคทางแสง คำว่า โอซีอาร์ ในปัจจุบันจึงกินความกว้างถึงการประมวลผลภาพทางดิจิทัลด้วยเช่นกัน
ระบบในสมัยเริ่มแรกต้องการการฝึกฝน (สอนตัวอย่างที่รู้จักแล้วของแต่ละตัวอักษร) เพื่ออ่านฟอนต์หนึ่ง ๆ
ปัจจุบัน ระบบ "อัจฉริยะ" ที่สามารถอ่านฟอนต์ส่วนใหญ่ได้แม่นยำสูงนั้นสามารถพบได้ทั่วไป
บางระบบถึงกับสามารถคงรูปแบบการจัดหน้าเดิมไว้ได้เกือบหมด ซึ่งรวมถึง รูปภาพ การแบ่งคอลัมน์ และส่วนประกอบที่ไม่ใช่ข้อความอื่น ๆ
== ประวัติ ==
[[ไฟล์:Scanner.JPG|thumb|300px|right|หลักการทำงานเครื่องเรทินาสแกนของ George Carey [http://www.diac.upm.es/acceso_profesores/asignaturas/television/stv/historiatv/] ]]
ระบบโอซีอาร์ไม่ใช่เรื่องใหม่สำหรับกระบวนการประมวลผลข้อมูล เนื่องจากความพยายามที่จะพัฒนาเครื่องช่วยอ่านตัวอักษรอัตโนมัติเพื่อช่วยงานมนุษย์นั้น มีการคิดค้นกันมากกว่าร้อยปีแล้ว ถ้าหากจะกล่าวถึงประวัติของโอซีอาร์ ก็น่าจะเริ่มต้นกันที่คำว่า optical ซึ่งบอกถึงหลักการทำงานของระบบที่เกี่ยวข้องกับการประมวลผลของภาพ[[อิเล็กทรอนิกส์]]ที่ได้มาจากเครื่องสแกน ซึ่งมีจุดเริ่มต้นในปี พ.ศ. 2416 โดยพนักงานโทรเลขชาวไอแลนด์ชื่อ Joseph May ได้ค้นพบคุณสมบัติทางโฟโตอิเล็กทริค (photoelectric) จาก[[ซีลีเนียม]] (selenium) โดยบังเอิญ จากนั้นในปี พ.ศ. 2418 ใน
[[ไฟล์:Nipkow.JPG|thumb|300px|right|Niokow disk [http://www.diac.upm.es/acceso profesores/asignaturas/television/stv/historiatv/]]และต่อมาในปี พ.ศ. 2427 Paul Nipkow ชาวเยอรมันได้คิดค้นเครื่องสแกนภาพแบบใหม่ที่ใช้จานหมุนที่มีรูเล็กๆ เรียงกันในลักษณะเป็นก้นหอยเรียกว่านิพโกว์ดิสก์ (Nipkow disk) ในการอ่านภาพ ซึ่งถือเป็นประดิษฐ์กรรมต้นแบบของเครื่องสแกนรวมทั้งเทคโนโลยีการถ่ายทอดภาพของวงการโทรทัศน์ในปัจจุบันอีกด้วย
เครื่องอ่านตัวอักษรเครื่องแรกที่มีการรายงานไว้เป็นเครื่องที่ทำขึ้นเพื่อช่วยคนพิการทางตาในการอ่านหนังสือซึ่งเป็นผลงานของนักวิทยาศาสตร์ชาวรัสเซียชื่อ Tyurin สร้างขึ้นในปี พ.ศ. 2443 จากนั้นในปี พ.ศ. 2472 G. Tausheck ได้จดสิทธิบัตรระบบโอซีอาร์เป็นครั้งแรกในประเทศเยอรมนี และต่อมาปี พ.ศ. 2476 ในอเมริกา P.W. Handel ก็ได้จดสิทธิบัตรโอซีอาร์ของตนเองเช่นกัน ถึงแม้เริ่มแรกระบบโอซีอาร์ดังกล่าวจะมีลักษณะและความสามารถที่เทียบไม่ได้กับระบบโอซีอาร์ที่เราใช้กันอยู่ในปัจจุบัน แต่แนวความคิดพื้นฐานของระบบดังกล่าวก็ยังคงใช้กันอยู่จนกระทั่งถึงทุกวันนี้
ความแตกต่างของระบบโอซีอาร์ในยุคแรกๆ ที่เห็นได้ชัดคือ ลักษณะที่เป็นชุดอุปกรณ์ฮาร์ดแวร์ที่พ่วงติดกับเครื่องสแกน แทนที่จะเป็นชุดซอฟต์แวร์ที่ใช้กับเครื่องคอมพิวเตอร์แบบตั้งโต๊ะ (การกล่าวถึงชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์ผู้เขียนขอใช้คำว่า “ระบบโอซีอาร์” แทนที่จะเป็น “โปรแกรมโอซีอาร์“ ซึ่งจะหมายถึงชุดซอฟต์แวร์โอซีอาร์ที่ใช้กับเครื่องคอมพิวเตอร์ ทั้งนี้เพื่อความชัดเจนในการใช้คำ) โดยโอซีอาร์ยุคแรกๆ จะมีลักษณะออกไปทางเครื่องจักรกล ซึ่งต่อมาได้รับการพัฒนาเป็นเครื่องอิเล็กทรอนิกส์แบบอนาล็อก แล้วจึงมาเป็นระบบดิจิตอลอย่างเช่นในปัจจุบัน ทุกวันนี้ชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์เช่นนี้ก็ยังคงมีการผลิตอยู่และมีราคาสูงมาก เพื่อใช้ในการแปลงเอกสารหรือแบบฟอร์มเฉพาะด้านที่มีปริมาณมากๆ เครื่องพวกนี้จะมีประสิทธิภาพการทำงานสูง ตัวอย่างการใช้งานโอซีอาร์แบบนี้ ได้แก่ ระบบอ่านรหัสไปรษณีย์เพื่อแยกจดหมายอัตโนมัติ และระบบสำหรับอ่านหมายเลขเช็ค เป็นต้น
เส้น 32 ⟶ 36:
'''''ยุคที่ 3'''''
ยุคนี้ให้ความสนใจกับเอกสารตัวพิมพ์ที่มีคุณภาพต่ำและตัวอักษรลายมือเขียนที่มีกลุ่มตัวอักษรหลากหลายมากขึ้น เช่น ตัวอักษรภาษาจีน เป็นต้น โดยที่โอซีอาร์เชิงพาณิชย์ของยุคนี้ออกสู่ท้องตลาดในช่วงประมาณ พ.ศ. 2518 ถึง พ.ศ. 2528 เราอาจจะแบ่งโอซีอาร์ยุคนี้ออกเป็นกลุ่มย่อยลงไปได้อีกดัง
'''ประวัติการวิจัยและพัฒนาโอซีอาร์ภาษาไทย'''
เส้น 49 ⟶ 52:
ก่อนที่จะกล่าวถึงรายละเอียดทางด้านเทคนิคเราควรทำความเข้าใจกับคำว่า “Optical Character Recognition” หรือ OCR กันก่อน ซึ่งถ้าจะแปลเป็นภาษาไทยอย่างตรงไปตรงมา ก็คงจะได้ว่า “การรู้จำตัวอักษรโดยการมองเห็น (ภาพ) ” ซึ่งเห็นได้ชัดว่าถ้าจะอธิบายให้คนที่ไม่รู้จักโอซีอาร์ฟัง แล้วเข้าใจด้วยละก็ จำเป็นจะต้องมาแปลให้เป็นภาษาไทยกันอีกที แบบที่จะสามารถเข้าใจกันได้ง่ายๆกว่านี้ ฉะนั้นเราน่าจะมาลองแปลกันใหม่ดีกว่า
เริ่มจากคำว่า
'''ประเภทของโอซีอาร์'''
เส้น 59 ⟶ 61:
[[ไฟล์:เทคโนโลยีโอซีอาร์.JPG|center|เทคโนโลยีโอซีอาร์]]
1. การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)▼
▲1.การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)
[[ไฟล์:รู้จำแบบออนไลน์.JPG|frame|right|อุปกรณ์รู้จำแบบออนไลน์]]
กลุ่มนี้จะต่างจากกลุ่มอื่นๆ ในแง่ของวิธีการอินพุตข้อมูล ซึ่งจะได้มาจากดิจิไทเซอร์หรือปากกาอิเล็กทรอนิกส์ที่ใช้กับเครื่องคอมพิวเตอร์มือถือ ส่วนการวิเคราะห์ตัวอักษรจะทำในขณะที่มีการลากเส้นเพื่อเขียนตัวอักษร (ออนไลน์) ซึ่งมีวิธีการทำงานที่ต่างจากวิธีการอื่นๆ ถ้าจะเทียบความยากง่ายกับการรู้จำลายมือเขียนแบบออฟไลน์ กลุ่มนี้จะง่ายกว่าเพราะจะได้ข้อมูลเพิ่มเติมเกี่ยวกับทิศทางและลำดับการลากเส้นมาช่วยด้วย โอซีอาร์กลุ่มนี้มักมาพร้อมกับอุปกรณ์การเขียนที่จะกำหนดพื้นที่ให้อินพุตข้อมูล โดยส่วนใหญ่มักต้องเขียนทีละตัวอักษร ความก้าวหน้าของเทคโนโลยีด้านนี้จะมีผลเป็นอย่างมากต่อการเจริญเติบโตของธุรกิจในวงการเครื่องคอมพิวเตอร์มือถือที่เป็นคอมพิวเตอร์ขนาดเล็ก ซึ่งต้องอาศัยการใส่อินพุตจากปากกาอิเล็กทรอนิกส์แทนคีย์บอร์ด
|