ปัจจุบันโมเดล LLM เก่งๆ มีหลากหลายโมเดล แต่ส่วนใหญ่ถูกพัฒนาจากกรอบของภาษาอังกฤษ หรือภาษาอื่นที่เป็นภาษาหลักของโลก รวมถึงชุดข้อมูลและการปรับแต่ง ก็ถูกตีกรอบด้วยอิทธิพลและมุมมองจากตะวันตกเป็นหลัก ทำให้ในหลายๆ ประเทศ หลายๆ ภูมิภาค ที่มีภาษาและบริบททางวัฒนธรรมเฉพาะ ไม่สามารถเข้าถึง LLM ได้ ซึ่งบริษัทใหญ่ๆ ก็คงไม่เน้นพัฒนาให้ หรือประเทศนั้นๆ จะพัฒนาเอง ก็ไม่ได้มีทรัพยากรเพียงพอ
AI Singapore หน่วยงานทีรับผิดชอบเรื่องการวิจัยและขับเคลื่อน AI ของรัฐบาลสิงคโปร์ เลยจับมือกับ Google Research ในการขับเคลื่อน Project SEALD ย่อมาจาก Southeast Asian Languages in One Network Data เพื่อแก้ปัญหาข้างต้น ด้วยการขับเคลื่อนพัฒนา Foundation Model ที่เก่งทั้งภาษา และบริบททางสังคม วัฒนธรรมของประเทศในเอเชียตะวันออกเฉียงใต้ที่ความหลากหลายด้านภาษาและวัฒนธรรมค่อนข้างสูง
การทำงานของ Project SEALD ก็จะร่วมกับพาร์ทเนอร์ท้องถิ่นในหลายๆ ประเทศ ทั้งหมด ณ ตอนนี้ 15 ราย อย่างของไทย ก็มีเช่น สถาบันวิทยสิริเมธี (VISTEC) และ KBTG
Google Research สิงคโปร์บอกว่าประเทศในอาเซียน อยู่ในกลุ่มประเทศแรกๆ ของโลกที่เปิดรับการใช้งาน LLM เป็นวงกว้าง แต่คุณภาพของภาษาและบริบทท้องถิ่น ของโมเดลดังๆ ในปัจจุบัน ไม่ค่อยดีนัก แม้แต่ภาษาอังกฤษเอง ที่แม้จะเป็นหนึ่งในภาษาหลักของสิงคโปร์ ก็ยังไม่ค่อยเข้าใจบริบทท้องถิ่นของประเทศนี้
หนึ่งในตัวอย่างที่ชัดคือกรณีของ tokenizer ที่ส่วนใหญ่จะถูกออกแบบมาสำหรับภาษาอังกฤษเป็นหลัก (english-centric) ดังนั้นทางทีมเลยจำเป็นต้องสร้าง tokenizer ขึ้นมาเองสำหรับแยกและจับคำในภาษาอาเซียน ที่ชื่อว่า SEABPETokenizer
ขณะที่ความเก่งของ LLM หลักๆ ก็ขึ้นอยู่กับนักวิจัย และข้อมูลที่ถูกเทรน และการจะพัฒนาโมเดล LLM ที่เข้าใจบริบทของอาเซียน ก็ต้องใช้ข้อมูลและนักวิจัยของอาเซียน เป้าหมายของ SEALD เลยมี 2 ส่วน ส่วนแรกคือการสร้างชุดข้อมูลเปิดเกี่ยวกับภาษาและบริบทของอาเซียน ที่มีคุณภาพสูง และส่วนที่สองคือโมเดล LLM ที่ถูกเทรน ปรับแต่ง จากชุดข้อมูลดังกล่าว
ดังนั้นบทบาทของ Google Research เลยมีทั้ง 2 ส่วนคือ เป็นหัวหอกในการเก็บรวบรวมข้อมูลในภูมิภาค ไม่ว่าจะผ่านทีมของ Google เองหรือผ่านเครือข่ายนักวิจัยและนักพัฒนา ไปจนถึงการใช้เทคนิคในการวิจัยและพัฒนาใหม่ๆ มาใช้งานใน Project SEALD
อย่างเช่นการนำ CALM ที่เป็นเทคนิคที่ Google Research และ DeepMind พัฒนาขึ้นมาร่วมกันมาใช้งาน ซึ่งเป็นเทคนิคที่จะรวมพลังของโมเดลเฉพาะทางหลายๆ ตัวเข้าด้วยกัน
จากเดิมที่ หากเราต้องการปรับแต่งโมเดลให้เป็นไปตามที่เราต้องการ เราต้อง fine-tuned โมเดลให้มีความสามารถที่เราต้องการขึ้นมา เทคนิค Composition To Augment Language Model (CALM) เสนอแนวทางใหม่ด้วยการบอกว่า ในเมื่อมีโมเดลที่เก่งเฉพาะทางอยู่แล้ว เช่น บางโมเดลเก่งเฉพาะงานแปลข้อความ หรืออาจจะเก่งกับภาษาเฉพาะบางภาษา สถาปัตยกรรม CALM จะทำให้เราสามารถนำโมเดลเฉพาะทางเหล่านี้มา “เชื่อม” (Composition) เข้ากับโมเดลหลักได้ โดยเรียกโมเดลหลักว่า Anchor Model และโมเดลเฉพาะทางว่า Augment Model
กระบวนการเชื่อมนี้อาศัยการสร้าง Compositional Layers ขึ้นมาเชื่อมสองโมเดลเข้าด้วยกัน จากนั้นฝึกโมเดลรวมด้วยชุดข้อมูลที่ผสมกันทั้งสองโมเดล (Composition Training Data) และสุดท้ายโมเดลที่รวมกันนี้ทำงานเหมือนเป็นโมเดลเดียวกัน
ทีมงานทดสอบประสิทธิภาพของ CALM ด้วยการนำโมเดล PaLM2-S มาเชื่อมกับ PaLM2-XXS โมเดลขนาดเล็กจิ๋วรุ่นพิเศษที่ฝึกภาษาจำนวนมาก แม้ว่า PaLM2-XXS ที่ถูกฝึกภาษาจะมีความสามารถในการแปลข้อความเป็นภาษาอังกฤษที่แย่มาก แต่เมื่อนำไปเชื่อมด้วยเทคนิค CALM ก็สามาารถเพิ่มความสามารถให้ PaLM-S ได้อย่างมีนัยสำคัญ
ตอนนี้ทาง Google Research ก็อยู่ระหว่างการทำงานร่วมกับพาร์ทเนอร์ใน Project SEALD เพื่อนำ CALM มาใช้งานในการเทรนโมเดลที่มีความเชี่ยวชาญหลายภาษา (multilinguality)
หรืออีกเทคนิคที่ Google Research นำมาใช้ในโปรเจ็คคือ MatFormer ย่อจาก Matryoshka Transformer (Matryoshka คือตุ๊กตาของรัสเซีย ที่จะมีหลายๆ ขนาดซ้อนๆ กันอยู่ข้างใน) เป็นความพยายามแก้ปัญหาที่ผู้ใช้ต้องการโมเดลขนาดต่างกันไปตามแต่เครื่องที่กำลังรันอยู่ เช่น โทรศัพท์ที่รันได้แต่โมเดลขนาดเล็กมากเท่านั้น หรือเซิร์ฟเวอร์บางแห่งอาจจะรันโมเดลขนาดกลาง ขณะที่องค์กรอาจจะต้องการรันโมเดลขนาดใหญ่ที่มีประสิทธิภาพสูงสุดเท่าที่เป็นไปได้
แต่เดิมผู้พัฒนาโมเดล มักออกแบบโมเดลไว้หลายขนาดตั้งแต่แรก แม้แต่ละขนาดอาจจะมีแนวคิด หรือเทคนิคพิเศษร่วมกัน จากนั้นโมเดลแต่ละตัวจะถูกฝึกแยกกันไป แนวทางนี้ทำให้ค่าใช้จ่ายในการฝึกสูงขึ้นมาก ยกตัวอย่าง Llama 3.1 ของ Meta นั้นใช้ชิปกราฟิกรวม 39.3 ล้านชั่วโมง แต่ที่ใช้สำหรับโมเดลขนาดใหญ่ที่สุดนั้นอยู่ที่ 30 ล้านชั่วโมงเท่านั้น (ค่าฝึกเพิ่มขึ้น 25-30% เพราะต้องฝึกโมเดลขนาดเล็ก)
MatFormer แก้ปัญหาโดยออกแบบสถาปัตยกรรมที่แต่ละชั้นของโมเดลนั้นถูกฝึกไว้หลายขนาด (S, M, L, XL) ตั้งแต่แรก แต่ฝึกไปโดยมองเป็นก้อนเดียวกัน เรียกว่า nested structure เมื่อฝึกสำเร็จแล้ว ผู้ใช้สามารถเลือกใช้งานโมเดลแต่ละชั้นว่าต้องการขนาดใดได้ตามใจชอบโดยไม่ต้องฝึกซ้ำ (mix-and-match)
ตัวอย่างของการใช้ MatFormer ที่ทีมงานยกมา คือการสร้างระบบแปลงภาพเป็นเวคเตอร์เพื่อใช้ค้นหาภาพ ทีมงานสามารถสร้างโมเดลที่ปรับขนาดยืดหดได้ตามต้องการ โดยผลที่ได้ความแม่นยำไม่ได้ต่างจากการฝึกโมเดลที่ขนาดที่ต้องการเฉพาะนัก
ขณะที่ตัวโมเดล LLM สำหรับอาเซียนมีชื่อว่า SEA-LION (Southeast Asian Languages In One Network) พัฒนาบนสถาปัตยกรรม MPT ปัจจุบันออกมาแล้ว 3 เวอร์ชันคือ v1 มี 2 โมเดลย่อยคือ 3 พันล้านและ 7 พันล้านพารามิเตอร์, v2 ใช้ LLAMA 3 มาพัฒนา เป็นโมเดลขนาด 8 พันล้านพารามิเตอร์ และล่าสุดเพิ่งเปิดตัว v3 ขนาด 9 พันล้านพารามิเตอร์ พัฒนาด้วย Gemma 2 โอเพนซอร์สของ Google เอง และแน่นอนว่า SEA-LION เปิดเป็นโอเพนซอร์ส
อย่างไรก็ตาม Google Research บอกว่า โมเดลที่ออกมาแล้วทั้ง 3 เวอร์ชันยังไม่ได้นำเทคนิค CALM หรือ MatFormer มาใช้งาน แต่กำลังทดลองนำทั้ง 2 เทคนิค มาใช้ในกระบวนการเทรนโมเดลที่จะออกมาในอนาคต
ส่วนในแง่การเบนช์มาร์ค AI Singapore ก็สร้างเบนช์มาร์คขึ้นมาเองในชื่อ SEA HELM (SouthEast Asian Holistic Evaluation of Language Models) ด้วยเช่นกัน โดยปัจจุบันโมเดล Gemma 2 ที่ทีมงาน SEA-LION ปรับแต่ง คือ gemma-2-9b-cpt-sea-lionv3-instruct นำเป็นอันดับหนึ่ง ทั้งคะแนนเฉลี่ยของ SEA โดยรวมและคะแนนของภาษาไทย
Comments
จนถึงตอนนี้ก็ยังสงสัยว่า
ถ้า AI โดนเทรนด้วยข้อมูลเท็จเฉพาะส่วน
เช่น เรื่องอื่น ตอบถูกหมด จนได้รับความเชื่อถือ
แต่เรื่องวัฒนธรรมกลับโดนประเทศ ข. อัดข้อมูล
เคลมว่า "ประเทศ ท. ขโมยวัฒนธรรมไป"
จน AI ตอบแบบนั้น จนคนทั้งโลกก็เชื่อ AI ไปตามนั้นจะมีการป้องกัน/แก้ไข เหตุการณ์แบบนี้ยังไง?
เป็นที่มาของการผลักดัน Open Source AI ครับ การแก้ไขตอนนี้คือ มีแต่ต้องแจ้งปัญหาที่เจอไปหาผู้สร้างครับ ส่วนการป้องกันอาจจะใหญ่กว่านั้น คือ การที่ภาครัฐของประเทศนั้น ๆ ต้องลงทุนสร้างชุดข้อมูลสาธารณะที่ให้พวกบ. AI / นักวิจัย/ นักพัฒนาอิสระจากทั่วโลก มีชุดข้อมูลตั้งต้นสำหรับทำ AI กับ ทำชุดข้อมูลทดสอบพวกนี้ทั้งมีความถูกต้องทางวิชาการและน่าเชื่อถือระดับสากล เป็นบรรทัดฐานในการเทรน AI และผลักดันเข้าไปอยู่ในชุดทดสอบระดับสากลครับ
บล็อก: wannaphong.com และ Python 3