มูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชน

เล่มที่ 25

การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์

สามารถแชร์ได้ผ่าน :

โปรแกรมรู้จำอักขระไทยด้วยแสง

โอซีอาร์เป็นคำย่อของภาษาอังกฤษ คือ "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จำอักขระด้วยแสง" ซึ่งเป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ ที่ได้รับความสนใจ และพัฒนามานานกว่า ๗๐ ปีแล้ว โอซีอาร์เป็นการรู้จำรูปแบบตัวอักษร ซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ (Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์ สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถบอกได้ว่า ภาพนั้นคือภาพอะไร ตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น

โปรแกรมโอซีอาร์รับภาพของเอกสารที่ได้จากเครื่องกราดตรวจเป็นอินพุท และส่งแฟ้มข้อความออกมาเป็นเอาท์พุท

นักวิจัยเป็นจำนวนมากมีความสนใจงานโอซีอาร์ เพราะเป็นงานที่เกี่ยวข้องกับเอกสาร ซึ่งมีปริมาณมากมายมหาศาล การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้น ต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้นๆ โดยใช้โปรแกรมพิมพ์ และประมวลผลเอกสาร (Word Processing Program) ถึงแม้ว่าโปรแกรมประเภทนี้ จะมีความสามารถ และเป็นเครื่องมือที่ดี แต่ก็ต้องใช้บุคลากรในการพิมพ์งาน ซึ่งใช้เวลามากพอสมควร และยังเป็นงานที่จำเจ สำหรับบุคลากรอีกด้วย ถ้าโอซีอาร์ประสบความสำเร็จ งานพิมพ์เอกสารต่างๆ เพื่อเก็บเป็นแฟ้มข้อความ ก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์แทน โดยทั่วไปแล้ว เวลาในการประมวลผลของโอซีอาร์ จะเร็วกว่าการพิมพ์ด้วยมนุษย์ โดยเฉลี่ยประมาณ ๕ เท่า และในบางระบบงานที่ได้จากโอซีอาร์ จะมีความถูกต้องมากกว่างานที่ได้จากการพิมพ์ของมนุษย์อีกด้วย จึงทำให้งานวิจัยด้านโอซีอาร์ ได้รับความนิยมเป็นอย่างมาก

ประเทศไทยเริ่มจะมีงานวิจัยเรื่องโอซีอาร์ สำหรับใช้งานกับเอกสารภาษาไทยในระยะเวลาประมาณ ๑๐ ปีที่ผ่านมานี้เท่านั้น และเพื่อความสะดวกในการกล่าวถึงงานวิจัยโอซีอาร์ สำหรับภาษาไทย จึงเป็นที่นิยมโดยทั่วไปที่จะเรียกงานวิจัยในสาขานี้ว่า "ไทยโอซีอาร์" ซึ่งมีการทำวิจัย ทั้งในหน่วยงานภาครัฐ และภาคเอกชน ตัวอย่างการทำวิจัยในสาขานี้ของทางภาครัฐ เช่น สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง โดย ดร. ชม กิ้มปาน สถาบันบัณฑิตพัฒนบริหารศาสตร์ โดย ดร. พิพัฒน์ หิรัญวนิชกร จุฬาลงกรณ์มหาวิทยาลัย โดย ดร. ชิดชนก เหลือสินทรัพย์ และ ดร. สมชาย จิตตะพันธ์กุล ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ โดย ดร. ทวีศักดิ์ กออนันตกูล และ ดร. จุฬารัตน์ ตันประเสริฐ เป็นต้น ส่วนทางภาคเอกชน ได้แก่ บริษัทเอเทรียม เทคโนโลยี จำกัด และบริษัทเอ็นเอสที อิเลคทรอนิค พับลิชชิ่ง จำกัด

ซอฟต์แวร์ไทยโอซีอาร์เริ่มออกสู่ตลาดในปี พ.ศ. ๒๕๓๙ จนถึงปี พ.ศ. ๒๕๔๑ ในท้องตลาดมีซอฟต์แวร์ไทยโอซีอาร์อยู่ ๓ ซอฟต์แวร์ด้วยกัน ได้แก่ ซอฟต์แวร์ไทยโอซีอาร์ ของบริษัทเอเทรียม เทคโนโลยี จำกัด ซอฟต์แวร์อ่านไทย โดยความร่วมมือระหว่างศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ กับบริษัท ไทยซอฟท์ จำกัด และซอฟต์แวร์ทีเร็ค (T - rec) โดยบริษัทเอ็นเอสที อิเลคทรอนิค พับลิชชิ่ง จำกัด ความสามารถในการรู้จำของทั้ง๓ ซอฟต์แวร์ มีความแตกต่างกันไปตามลักษณะของฟอนต์ตัวอักษรไทย และ / หรือลักษณะของเอกสาร ซึ่งในปัจจุบันนี้ถือว่า ความสามารถในการรู้จำของโอซีอาร์อยู่ในระดับพอใช้งานได้ แต่ยังต้องการการพัฒนาปรับปรุงเพิ่มประสิทธิภาพต่อไปอีกในอนาคต

หัวข้อก่อนหน้า

บทความและภาพประกอบที่อยู่ในเว็บไซต์ของมูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ นี้ใช้สำหรับเพื่อสนับสนุนการผลิตหนังสือสารานุกรมไทยสำหรับเยาวชนฯ
เป็นการเผยแพร่วิชาการให้แก่เยาวชนและประชาชนทั่วไป โดยจะนำไปแจกจ่ายให้โรงเรียนทั่วประเทศ และจำนวนหนึ่งนำออกจำหน่ายเพื่อนำเงินมาสมทบทุนในการจัดพิมพ์ต่อไป
ซึ่งเป็นการใช้สิทธิโดยสุจริต ทั้งนี้มูลนิธิได้รับอนุญาตทั้งบทความและภาพประกอบจากผู้เขียนแล้ว หากมีประเด็นขัดข้องสงสัยในเรื่องลิขสิทธิ์อย่างใด ขอได้โปรดแจ้งให้
มูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ ทราบเพื่อพิจารณาแก้ไขความขัดข้องสงสัยนั้นต่อไป จะเป็นพระคุณยิ่ง

ลิขสิทธิ์เป็นของมูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ
ห้ามนำข้อความและรูปภาพไปเผยแพร่โดยไม่ได้รับอนุญาต