มูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชน

เล่ม 25

การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์

สามารถแชร์ได้ผ่าน :

เครื่องแปลภาษา

เครื่องแปลภาษาคือ เครื่องมือที่ใช้สำหรับการแปลข้อความจำนวนมากๆ จากภาษาหนึ่งไปยังอีกภาษาหนึ่ง โดยที่สามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความหรือเสียงก็ได้ และจะได้ภาษาปลายทางเป็นข้อความหรือเสียงก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปล สามารถแปลข้อความได้เป็นจำนวนมาก และรวดเร็ว ในยุคที่ต้องการข้อมูลข่าวสารอย่างรวดเร็ว

รูปแบบการทำงานของโปรแกรมแปลภาษาแบบภาษากลาง

ประวัติการทำวิจัยและพัฒนาเครื่องแปลภาษา

การทำวิจัย และพัฒนาเครื่องแปลภาษา เป็นงานแขนงหนึ่ง ในศาสตร์แห่งการประมวลผลภาษาธรรมชาติ (Natural Language Processing) เครื่องแปลภาษาเครื่องแรกได้กำเนิดขึ้นประมาณปี ค.ศ. ๑๙๓๐ เครื่องแปลภาษาเป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำๆ เท่านั้น

เครื่องแปลภาษาในยุคแรก (ปี ค.ศ. ๑๙๕๐ - ๑๙๖๐)

จากการสำรวจการทำวิจัย และพัฒนาเครื่องแปลภาษา (ALPAC 1966 - 672) พบว่า ระบบที่สำคัญที่สุด ในยุคนี้ คือ ระบบ Georetown Automatic Translation (GAT) ส่วนในยุโรปก็ได้แก่ งานของ Kulagina และ Mel'cuk ในยุคแรกนี้ เครื่องแปลภาษาจะแปลแบบตรง (directapproach) คือ แปลแบบพิจารณาเฉพาะที่ โดยแปลจากภาษาต้นทางเป็นภาษาปลายทางโดยตรงทีละคู่ภาษาเท่านั้น และโปรแกรมจะพิจารณาไปทีละคำ ไม่ได้ดูเป็นประโยค เป็นการแปลคำต่อคำ แล้วใช้การเปลี่ยนการเรียงลำดับคำ ให้สอดคล้องกับภาษาเป้าหมาย ส่วนการเขียนกฎไวยากรณ์ หรือการใช้ความรู้ทางภาษาศาสตร์ เพื่อมาช่วยในการวิเคราะห์นั้น ในยุคแรกนี้ จะเขียนเป็นรหัสโดยตรง จึงใช้งานได้ยาก และมีลักษณะเป็นกระบวนการ (procederal) กล่าวคือ กระบวนการแปลทั้งหมดคือ การทำตามคำสั่งต่อๆ กัน

แต่เป็นที่น่าเสียดายที่รายงาน ALPAC ดังกล่าว แสดงผลว่า การทำวิจัย และพัฒนาเครื่องแปลภาษา ไม่ประสบความสำเร็จ รัฐบาลสหรัฐอเมริกาจึงไม่สนับสนุนงบประมาณในการทำวิจัยเรื่องนี้ ซึ่งผลให้เกิดยุคมืดของการทำวิจัย และพัฒนาระบบแปลภาษาขึ้น อย่างไรก็ตาม การทำวิจัย และพัฒนา ในประเทศอื่นๆ ก็ยังดำเนินต่อไป

ในยุคนี้ได้มีการนำเครื่องแปลภาษามาใช้งานจริงในปี ค.ศ. ๑๙๗๖ ซึ่งทาง Commission of the European Communities ได้ตัดสินใจสั่งซื้อ และพัฒนาระบบ Systran ซึ่งเป็นเครื่องแปลภาษาอังกฤษ - ฝรั่งเศส เพื่อใช้สำหรับบริการการกระจายข่าวของแคนาดา และหลังจากนั้นมาอีก ๕ ปี บริษัทต่างๆ ที่พัฒนาเครื่องแปลภาษา ก็สามารถนำผลงานออกสู่ตลาดได้เป็นผลสำเร็จ

เครื่องแปลภาษาในยุคปี ค.ศ. ๑๙๘๐

งานวิจัย และพัฒนาเครื่องแปลภาษาในยุคนั้น ยังให้ความสำคัญกับวากยสัมพันธ์ของภาษา และใช้วิธีการ "เปลี่ยน" (transfer approach) ตัวอย่างเช่น ระบบเอเรียน (Ariane) ของมหาวิทยาลัยเกรดนอบล์ ประเทศฝรั่งเศษ ระบบเมทัล ของเท็กซัส ระบบซูซี่ ของ Sarbruken ระบบ MU ของมหาวิทยาลัยเกียวโต รวมถึงโครงการ Multilingual Eurotra ของกลุ่มประชาคมยุโรป

ต่อมามีการนำวิธีการใช้ภาษากลาง (interlingual approach) เข้ามาใช้ เพื่อที่จะทำการแปลแบบหลายภาษา (multilingual machine translation) ให้ได้ผล เช่น โครงการ DLT และ โรเซ็ตต้า (Rosetta) ประเทศเนเธอร์แลนด์ รวมทั้งโครงการระบบเครื่องแปลหลากภาษาสำหรับภาษาอาเซียน ๕ ภาษา คือ ภาษาญี่ปุ่น ภาษาจีน ภาษามาเลเซีย ภาษาอินโดนีเซีย และภาษาไทย

การพัฒนาเครื่องแปลภาษาในยุคนี้ มีแนวคิดเปลี่ยนไปจากเดิมคือ เริ่มมองว่า เครื่องแปลภาษาเป็นเครื่องมือ ที่จะช่วยแปลภาษาเท่านั้น แต่ไม่สามารถนำมาทดแทนนักแปลภาษามืออาชีพได้ แนวคิดเช่นนี้ ก่อให้เกิดการรวมตัวของนักวิจัย เพื่อหาแนวทางใหม่ๆ ในการทำวิจัย และพัฒนา ซึ่งสามารถสรุปแนวทางที่เกิดขึ้นในยุคนี้ได้ดังนี้

๑. เครื่องแปลภาษาแบบใช้กฎไวยากรณ์

สมมติฐานของการพัฒนาเครื่องแปลภาษาแบบใช้กฎไวยากรณ์ก็คือ การมีกระบวนการวิเคราะห์ และการสร้างรูปแทน (representation) ความหมายของภาษาต้นทาง และสร้างภาษาปลายทาง จากรูปแทนนั้น โดนที่รูปแทนจะต้องไม่มีความกำกวม ทั้งในระดับคำและโครงสร้าง โดยมีการวิเคราะห์ภาษาต้นทางด้วยความรู้ทางภาษาศาสตร์ ซึ่งประมวลผลออกมาเป็นกฎไววยากรณ์ และมีวิธีใช้ เพื่อให้สามารถไปถึงจุดหมายนั้นได้หลายวิธี ดังนี้

๑.๑ เครื่องแปลภาษาแบบ "เปลี่ยน"

แนวทางการใช้วิธีการ "เปลี่ยน" นั้น ได้แก่ ระบบเอเรียน และระบบยูโรทรา ฯลฯ ซึ่งเป็นระบบ ที่ให้ความสำคัญกับวากยสัมพันธ์ของภาษา

โครงข่ายของรูปแทนภาษาของประโยค "we develop system for sentence translation"

๑.๒ เครื่องแปลภาษาแบบ "ภาษากลาง" (Interlingual Approach) การทำวิจัยเครื่องแปลภาษา ด้วยการใช้ภาษากลางนั้น เริ่มต้นที่มหาวิทยาลัย Carnegie - Melon ซึ่งทำวิจัย และพัฒนา Knowledge - based MT system โดยมีแนวคิดว่า นอกเหนือจากการใช้ความรู้ทางภาษาศาสตร์แล้ว ในการแปลภาษาจะต้องมีความเข้าใจเรื่องหลักภาษาด้วย จึงมีการแปลงรูปแทนทางอรรถศาสตร์ โดยใช้ความรู้จากฐานความรู้ในโดเมนใดๆ ซึ่งแสดงเป็นโครงข่าย (network) ที่แสดง actual events

๒. เครื่องแปลภาษาแบบใช้คลังข้อความ (Corpus - based Approach)

แนวคิดการทำวิจัย และพัฒนาเครื่องแปลภาษา ได้เริ่มเข้าสู่ยุคใหม่ ซึ่งมีการเก็บรวบรวมข้อความจำนวนมาก ที่เรียกว่า คลังข้อความ (Corpus base) เพื่อนำไปศึกษาวิจัย โดยอ้างอิงข้อมูลขนาดใหญ่ที่ใช้จริง ในภาษา และมีการดึงข้อมูลจากคลังข้อความไปใช้ในการวิเคราะห์ภาษา หรือการสร้างภาษาโดยตรง จึงก่อให้เกิดวิธีการนำไปใช้ดังต่อไปนี้

๒.๑ วิธีอาศัยค่าสถิติ (Statistic Approach)

ในช่วงปลายคริสต์ทศวรรษ ๑๙๘๐ โครงการ IBM candide Research (Brown et all. 1980, 1990) ได้อาศัยวิธีการทางสถิติในการวิเคราะห์ และการสร้างภาษา โดยอาศัยคลังข้อความขนาดใหญ่ ที่มีชื่อว่า Canadian Hansard ซึ่งได้เก็บบันทึกการอภิปรายในสภาไว้เป็น ๒ ภาษาคือ ภาษาอังกฤษ และภาษาฝรั่งเศส วิธีการที่นำมาใช้คือ การหาขอบเขตของประโยค ๒ ภาษาที่ตรงกันจากคลังข้อความที่เป็นคู่ภาษา จากนั้นนำมาคำนวณหาค่าความเป็นไปได้ของคำในภาษาต้นทางว่าตรงกับภาษาปลายทางกี่คำ โดยคำนวณค่าความเป็นไปได้จากการจับคู่คู่คำที่อยู่ติดกัน (bigram) ของภาษาอังกฤษ กับคู่คำที่อยู่ติดกัน (bigram) ของภาษาฝรั่งเศส ซึ่งผลสำเร็จที่สามารถแปลได้มีความถูกต้องประมาณ ๔๘ %

ต่อมามีการปรับปรุงการทำวิจัย และพัฒนาในเรื่องนี้ โดยปรับการคำนวณค่าความเป็นไปได้ให้ถูกต้องมากยิ่งขึ้น นอกจากนั้น นักวิจัยบางคน ก็นำความรู้ทางภาษาศาสตร์เรื่องคำและไวยากรณ์ มาใช้ร่วมกัน เพื่อให้งานนั้นถูกต้องยิ่งขึ้น

๒.๒ วิธีการแปลแบบใช้ประโยคตัวอย่าง (Example base Approach)

ในกลางคริสต์ทศวรรษ ๑๙๘๐ นากาโอะ (Nagao) ได้เสนอวิธีการแปล โดยการใช้ประโยคตัวอย่างจากคลังข้อความคู่ภาษาขนาดใหญ่ ซึ่งโปรแกรมจะคำนวณว่า ประโยคที่มีปรากฏว่าแปลไว้ในคลังตัวอย่าง และดึงขึ้นมาใช้ โครงการ ATR ซึ่งมีเครื่องแปลภาษาแบบใช้วิธี "เปลี่ยน" ก็ได้นำวิธีนี้มาใช้ โดยเลือกเก็บประโยคตัวอย่าง ซึ่งได้มาจากการคำนวณค่าระยะห่างของคำที่มีความหมายใกล้เคียงกันในอภิธานศัพท์ (Thesaurus) และจะใช้การ "เปลี่ยน" ในระดับต่างๆ เช่น ระดับคำ ระดับรูปแบบ และระดับวากยสัมพันธ์ เช่น ในภาษาญี่ปุ่น โครงสร้าง N1 no N2 จะเปลี่ยนไปให้ตรงกับ N2 of N1 แต่ก็ไม่เสมอไป เช่น จะใช้สำนวนว่า fee for the conference มากกว่า fee of the conference และจะใช้ conference in Tokyo มากกว่า conference of Tokyo ดังนั้น จึงมีการเก็บประโยคตัวอย่างเหล่านี้ไว้

เครื่องแปลภาษาไทยเป็นภาษาอื่นๆ

การทำวิจัย และพัฒนาเครื่องแปลภาษาในประเทศไทย เริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยร่วมกับมหาวิทยาลัยเกรอนอบล์ (Grenoble) แห่งประเทศฝรั่งเศส ได้ร่วมโครงการทำวิจัย และแปลภาษาเป็นไทย ด้วยคอมพิวเตอร์ ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐)

ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษา สำหรับภาษาในเอเชีย ซึ่งได้แก่ ภาษาจีน ญี่ปุ่น มาเลเซีย อินโดนีเซีย และไทย โครงการนี้เป็นโครงการของกระทรวงวิทยาศาสตร์เทคโนโลยีและสิ่งแวดล้อม ซึ่งดำเนินการโดย ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)

หัวข้อก่อนหน้า หัวข้อถัดไป

บทความและภาพประกอบที่อยู่ในเว็บไซต์ของมูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ นี้ใช้สำหรับเพื่อสนับสนุนการผลิตหนังสือสารานุกรมไทยสำหรับเยาวชนฯ
เป็นการเผยแพร่วิชาการให้แก่เยาวชนและประชาชนทั่วไป โดยจะนำไปแจกจ่ายให้โรงเรียนทั่วประเทศ และจำนวนหนึ่งนำออกจำหน่ายเพื่อนำเงินมาสมทบทุนในการจัดพิมพ์ต่อไป
ซึ่งเป็นการใช้สิทธิโดยสุจริต ทั้งนี้มูลนิธิได้รับอนุญาตทั้งบทความและภาพประกอบจากผู้เขียนแล้ว หากมีประเด็นขัดข้องสงสัยในเรื่องลิขสิทธิ์อย่างใด ขอได้โปรดแจ้งให้
มูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ ทราบเพื่อพิจารณาแก้ไขความขัดข้องสงสัยนั้นต่อไป จะเป็นพระคุณยิ่ง

ลิขสิทธิ์เป็นของมูลนิธิโครงการสารานุกรมไทยสำหรับเยาวชนฯ
ห้ามนำข้อความและรูปภาพไปเผยแพร่โดยไม่ได้รับอนุญาต