ในยุคสารสนเทศ (Information age) นี้ ข้อมูลข่าวสารเป็นสิ่งจำเป็น ที่เราสามารถค้นหา หรือเผยแพร่ได้โดยง่าย ด้วยเทคโนโลยีที่ไร้พรมแดนคือ อินเทอร์เน็ต (Internet) จึงทำให้มนุษย์สามารถติดต่อกันได้ทั่วโลก ไม่ว่าจะอยู่ที่ใด เมื่อเชื่อมต่อเครื่องคอมพิวเตอร์เข้ากับเครือข่ายอินเทอร์เน็ตได้ เราก็สามารถพูดคุย หรือส่งจดหมายอิเล็กทรอนิกส์ ให้แก่บุคคลอื่นได้ด้วยตัวเอง โดยไม่ต้องมีหน่วยงาน เช่น ที่ทำการไปรษณีย์โทรเลข ทำหน้าที่รับส่ง และไม่ต้องอาศัยบุรุษไปรษณีย์ ในการนำส่งจดหมายอีกต่อไป
เมื่อเทคโนโลยีคอมพิวเตอร์เข้ามามีบทบาทสำคัญในการติดต่อสื่อสาร การพิมพ์เอกสาร การค้นหาข้อมูลข่าวสาร การเผยแพร่ข่าวสาร ฯลฯ ดังนั้น คนไทยจึงมุ่งหวัง ที่จะให้คอมพิวเตอร์สามารถทำงานรองรับการใช้งานภาษาไทย โดยรับข้อมูลเข้า และแสดงผลเป็นภาษาไทยได้ รวมทั้งเข้าใจ และโต้ตอบด้วยภาษาไทยได้ ซึ่งจะเป็นประโยชน์ต่อคนไทยอย่างอเนกอนันต์ ทั้งในด้านวิชาการ ธุรกิจ และบันเทิง ด้วยความจำเป็นดังกล่าว นักวิชาการ และนักวิจัยในประเทศไทยจึงต้องทำวิจัย และพัฒนาเทคโนโลยี เพื่อให้มีความเจริญทัดเทียมเทคโนโลยีต่างประเทศ ที่ก้าวหน้าไปอย่างมาก
การประมวลผลภาษาไทยบนคอมพิวเตอร์
เทคโนโลยีที่เรานำมาใช้ในการประมวลผล และการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ประกอบไปด้วย วิทยาการทางด้านวิศวกรรมคอมพิวเตอร์ (Computer Engineering) ผสมผสานกับเทคโนโลยีทางด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing) ซึ่งได้แก่ การประมวลผลอักขระ (Character processing) การประมวลผลคำ (Word processing) การประมวลผลข้อความ (Text processing) การประมวลผลภาพ (Image processing) รวมทั้งความรู้ทางภาษาศาสตร์ (Linguistics)
ผู้เชี่ยวชาญและนักวิจัยทั้งจากภาครัฐ และภาคเอกชนมีความสนใจงานวิจัย และพัฒนาโปรแกรมการประมวลผลภาษาไทย บนคอมพิวเตอร์อย่างกว้างขวาง เพื่อให้ผู้ใช้คนไทยสามารถใช้งานคอมพิวเตอร์ด้วยภาษาไทยได้อย่างมีประสิทธิภาพ ในที่นี้จะอธิบายโปรแกรมการประมวลผลบางโปรแกรม เพื่อเป็นความรู้พื้นฐานให้เข้าใจ เรื่องการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ดังต่อไปนี้
ตัวอย่างโปรแกรมพจนานุกรมที่เรียงลำดับคำไทยตามตัวอักษร
๑. โปรแกรมการเรียงลำดับคำไทย (Thai Sorting)
การเรียงลำดับคำในพจนานุกรม การเรียงลำดับชื่อบุคคลในสมุดรายนามผู้ใช้โทรศัพท์ หรือการเรียงลำดับคำ ให้สามารถค้นหาได้โดยง่าย จำเป็นต้องมีการเรียงตามลำดับตัวอักษร และตามมาตรฐานการเรียงลำดับคำไทย ที่ยึดถือตามพจนานุกรม ฉบับราชบัณฑิตยสถาน พ.ศ. ๒๕๒๕ ประโยชน์ของการเรียงลำดับคือ ช่วยให้การค้นหาทำได้ง่ายขึ้น ทั้งการค้นโดยคอมพิวเตอร์ และการค้นโดยผู้ใช้ ตัวอย่างที่เห็นได้อย่างชัดเจนคือ การค้นหาคำ ในพจนานุกรม หรือการค้นหาฐานข้อมูลชื่อต่างๆ เช่น ชื่อบุคคล ชื่อหน่วยงาน ชื่อแฟ้มเอกสาร เป็นต้น ถ้าได้จัดเรียงไว้ตามลำดับแล้ว ก็จะสามารถประหยัดเวลาในการค้นหาได้
๒. โปรแกรมการสืบค้นคำไทยตามเสียงอ่าน (Thai Soundex)
การค้นหาคำไทยที่มีเสียงพ้อง หรือคำที่สามารถสะกดได้หลายแบบนั้น สามารถแก้ปัญหาได้ โดยการค้นหาคำตามเสียงอ่าน ทั้งนี้ ตามธรรมชาติของผู้ใช้ภาษาโดยทั่วไป จะเคยชินกับเสียงอ่านของคำมากกว่าตัวสะกด นอกจากนั้น เสียง ๑ เสียงสามารถแทนคำได้มากกว่า ๑ คำ เช่น เสียง "ค่า" หมายความถึง ข้า ค่า หรือ ฆ่า ก็ได้ ชื่อเฉพาะทั้งหลาย ก็สามารถสะกดได้หลายแบบ เช่น เพชรรัตน์ (อ่านว่า เพ็ด - ชะ - รัด) อาจสะกดเป็น เพชรัตน์ เพ็ชรัตน์ เพ็ชรรัตน์ เพชรรัช เพชรรัชต์ เพชรรัฐ เพชรรัตต์ เพชรรัตติ์ เพชรรัศม์ ฯลฯ จึงได้มีการคิดวิธีค้นตามเสียงอ่านขึ้น เพื่ออำนวยความสะดวกต่อผู้ใช้ ในสถานการณ์ที่ไม่สามารถสะกดคำได้อย่างถูกต้อง เช่น การค้นหาชื่อในฐานข้อมูลสำมะโนประชากร ในสมุดรายนามผู้ใช้โทรศัพท์ หรือในโปรแกรมตรวจคำผิด เป็นต้น
การทำงานของโปรแกรมการสืบค้นคำไทยตามเสียงอ่าน
๓. โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)
ลักษณะการเขียนภาษาไทย ซึ่งเขียนติดต่อกันเป็นสายอักขระ โดยไม่มีเครื่องหมายวรรคตอน แสดงการแบ่งคำ ดังเช่น ภาษาอังกฤษ เป็นอุปสรรคอย่างหนึ่งที่ต้องการการศึกษา ทำวิจัย และพัฒนา เพื่อให้คอมพิวเตอร์สามารถคำนวณแบ่งสายอักขระไทย ให้เป็นคำๆ ซึ่งจะส่งผลให้การทำงานของคอมพิวเตอร์ ในการค้นหาคำใดๆ เป็นไปอย่างถูกต้อง และแม่นยำ รวมถึงการจัดขอบขวาในโปรแกรมประมวลผลคำด้วย เป็นต้น ตัวอย่างเช่น ถ้ามีข้อความว่า "ฉันนั่งตากลมที่หน้าบ้าน" จะต้องทำให้ คอมพิวเตอร์รู้ว่าเป็น "ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน" ไม่ใช่ "ฉัน นั่ง ตา กลม ที่ หน้า บ้าน"
การเล่นเกมคอมพิวเตอร์ทำให้รู้สึกเสมือนว่าอยู่ในไซเบอร์สเปซ
๔. โปรแกรมแปลภาษา (Machine Translation)
โปรแกรมแปลภาษาคือ เครื่องมือที่ใช้สำหรับแปลข้อความจำนวนมากๆ จากภาษาหนึ่งไปเป็นภาษาหนึ่ง โดยสามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความ หรือเสียงพูดก็ได้ ผลที่ได้รับคือ จะได้ภาษาปลายทางเป็นข้อความ หรือเสียงพูดก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมาก และรวดเร็ว
การทำวิจัย และพัฒนาเครื่องแปลภาษา เป็นงานแขนงหนึ่ง ในศาสตร์แห่งการประมวลผลภาษาธรรมชาติ เครื่องแปลภาษาเครื่องแรกถูกผลิตขึ้นประมาณปี ค.ศ. ๑๙๓๐ เป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องของวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำๆ เท่านั้น การทำวิจัย และพัฒนา เครื่องแปลภาษา ในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัย และมหาวิทยาลัย เกรอนอบล์ (Grenoble) แห่งประเทศฝรั่งเศส ได้ร่วมกันจัดทำโครงการวิจัย และแปลภาษาอังกฤษเป็นภาษาไทย ด้วยคอมพิวเตอร์ ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐) ต่อมาก็เกิดโครงการความร่วมมือ ในการพัฒนาระบบแปลหลากภาษา สำหรับภาษา ในเอเชีย ได้แก่ ภาษาจีน ญี่ปุ่น มลายู อินโดนีเซีย และไทย ซึ่งเป็นโครงการของกระทรวงวิทยาศาสตร์เทคโนโลยีและสิ่งแวดล้อม ซึ่งดำเนินการภายใต้ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)
แสดงขั้นตอนการทำงานของโปรแกรมรู้จำอักขระไทยด้วยแสง
๕. โปรแกรมรู้จำอักขระไทยด้วยแสง หรือไทยโอซีอาร์ (Thai Optical Character Recognition)
โอซีอาร์เป็นคำย่อของภาษาอังกฤษว่า "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จักอักขระด้วยแสง" เป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ ที่ได้รับความสนใจ และพัฒนามานานกว่า ๗๐ ปีแล้ว โอซีอาร์ เป็นการรู้จำรูปแบบตัวอักษร ซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ (Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถจะบอกได้ว่า ภาพนั้นคือภาพอะไร ภาพตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น
นักวิจัยมีความสนใจงานโอซีอาร์เป็นอย่างมาก เพราะเป็นงานที่เกี่ยวข้องกับเอกสาร การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้น ต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้นๆ โดยใช้โปรแกรมประมวลผลคำ ถึงแม้ว่าโปรแกรมประเภทนี้จะมีความสามารถ และเป็นเครื่องมือที่ดี แต่ก็ยังต้องใช้บุคลากรจำนวนมาก และใช้เวลานาน ถ้าโอซีอาร์ประสบผลสำเร็จ งานพิมพ์เอกสารต่างๆ เพื่อเก็บเป็นแฟ้มข้อความ ก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์ การประมวลผลของโอซีอาร์โดยทั่วไปจะเร็วกว่าการพิมพ์ของมนุษย์เฉลี่ยประมาณ ๕ เท่า และในบางระบบ การประมวลผลของโอซีอาร์ จะมีความถูกต้องมากกว่าการพิมพ์ของมนุษย์อีกด้วย
ตัวอย่างโปรแกรม เพื่อการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ที่ได้กล่าวมาแล้วข้างต้น ล้วนเป็นงานที่ได้รับการพัฒนาขึ้น โดยนักวิจัยไทยทั้งสิ้น อย่างไรก็ตาม งานวิจัย และพัฒนาในเรื่องนี้ยังต้องดำเนินต่อไป เพื่อประโยชน์สูงสุด ในการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ เช่น การสั่งงานด้วยเสียงพูดโดยไม่ต้องใช้แป้นพิมพ์ การสนทนาโต้ตอบกับคอมพิวเตอร์ การสอบถาม และการค้นหาแบบอัตโนมัติ ทั้งนี้ นักวิจัยไทยมีความมุ่งหวังว่า ในอนาคต คนไทยจะสามารถใช้งานโปรแกรมเหล่านี้ได้ตามที่ตั้งปณิธานไว้