สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล deep learning แบบ Transformer ที่ฝึกด้วย toolkit fairseq ของเฟซบุ๊ก ที่ฝึกกับชุดข้อมูลแปลภาษาไทย-อังกฤษมาแล้ว 1 ล้านคู่ประโยค พร้อมปล่อยชุดข้อมูล โดยได้คะแนน BLEU เหนือกว่า Google Translate API
ทางสถาบันสร้างชุดข้อมูลโดยอาศัยทั้งการจ้างนักแปลโดยตรง, จ้างจากแพลตฟอร์ม crowdsourcing, ใช้นักแปลตรวจสอบการแปลของ Google Translate API, ไปจนถึงเอกสารที่มีการแปลอยู่แล้ว เช่น เอกสารราชการหรือวิกิพีเดีย
โมเดล Transformer เป็นโมเดลที่ กูเกิลเสนอไว้ตั้งแต่ปี 2017 และโมเดลในกลุ่มนี้ยังคงเป็นกลุ่มที่มีความแม่นยำสูงสุด ทางสถาบันวิจัยปัญญาประดิษฐ์ใช้โมเดล Transformer แบบพื้นฐานขนาด 74 ล้านพารามิเตอร์ แล้วทดสอบคะแนนด้วยชุดข้อมูล IWSLT 2015 จำนวน 4,242 ประโยค สร้างโมเดลแปลที่ความแม่นยำตามคะแนน BLEU สูงขึ้นกว่าเดิม โดยก่อนหน้านี้ทางสถาบันเคยใช้ ชุดข้อมูล OPUS ขนาด 5.4 ล้านประโยค ในการสร้างปัญญาประดิษฐ์แบบเดียวกันมาก่อนแล้ว
Comments
ถ้าประเทศไทย มี dataset เยอะพอ จะได้วิจัย AI ได้ก้าวหน้า แข่งกับต่างประเทศได้ครับ.
ทรัพยากรต้องอยู่ในระดับ "พอไหว" ด้วยครับ โมเดล deep learning เดี๋ยวนี้ใหญ่เกินการ์ดจอ consumer ไปไกล (น่าจะเป็นความตั้งใจของ NVIDIA ที่อั้นแรมไว้) เจอโมเดลใหม่ๆ นี่เทรนทำซ้ำยังไม่ไปเลย
อย่างเคสนี้ของทางสถาบันก็ใช้ DGX-1 มารันได้ ตามมหาวิทยาลัยนี่ก็อาจจะต้องจัดหา Tesla/Quadro แรมเยอะๆ มาให้นักวิจัยใช้งานกันได้สะดวกๆ หน่อย
lewcpe.com , @wasonliw
ผมว่า Nvidia ไม่ได้อั้นแรมหรอกครับ แต่ลูกค้าขาดเงินมากกว่า ถ้ามีเงินก็บอก Nvidia ไปว่าจะเอาแรมเท่าไร เงินถึง ผมว่ายังไงเค้าก็ผลิตให้ครับ
งานนี้เราใช้ V100 ในการเทรนไม่ใช่ DGX-1 แต่โมเดล transformers-base นี้เทรนด้วย GPU ฟรีของ Google Colab หรือ Kaggle ได้ครับ ถ้าในระดับประมาณ 5 ล้านคู่ประโยคเท่าที่เรามีอยู่
data ผมว่ามีอยู่แล้ว แต่น่าจะขาดคนรวบรวม วิเคราะห์ และนำมาใช้ ส่วนหนึ่งต้องยอมรับว่า ทำไปก็ไม่ได้เงิน ทำไปขายได้แค่ตลาดเล็ก ๆ ในประเทศ ได้แต่ใช้เอง ทำไปตลาดต่างประเทศก็ไม่สนใจผลงานของเรา เทคโนโลยีจากประเทศไทย vs เทคโนโลยีจากสหรัฐอเมริกา อืม..แค่ฟังชื่อความรู้สึกก็ต่างกันแล้วครับ มวยรองถ้าจะชนะต้องเอาถึงขั้นน็อคครับ สูสียังไงก็แพ้ แต่ว่ากันเป็นขั้น เอาให้พึ่งพาตัวเองได้ก่อน เพราะตอนนี้อะไร ๆ เราก็ใช้ของนอกครับ แค่ทำเว็บยังใช้ framework เมืองนอกทั้งนั้น
framework มัน opensource ไม่มีประเทศหรอกครับ ใครอยาก contribute ก็ช่วยกัน contribute เข้าไป
ต้องมีดาต้าถึงจะขับเคลื่อนไปได้ 555
มือใหม่!! ใหม่จริงๆนะ
ในรูปนั่นแปลตกใช่ไหม
ตลาดเอเชียหายไปไหนเลย
พึ่งรู้ว่ามีสถาบันแบบนี้ในไทยด้วย
เพิ่งก่อตั้งและให้ทุนโดย ปตท เหมือนจะมีแต่ Graduated School รวมอาจารย์เก่งๆ นักศึกษาเก่งๆไว้เยอะอยู่ครับเท่าที่ได้ข่าว คล้ายๆโรงเรียนกำเนิดวิทย์ซึ่งตอนนี้บางคนบอกว่าดีกว่ามหิดลวิทยานุสรณ์อีกเข้ายากมาก
เฉพาะการแปลคำไม่ใช่สิ่งที่ยากมากนัก แต่การจัดเรียงคำเป็นรูปประโยคสิยาก อย่างตัวอย่างในภาพ การวางตำแหน่งคำยังแปลกๆอยู่
ถ้าแบบไม่มีความรู้ด้านนี้ว่า ยังไม่ได้ให้ user ทั่วไปใช้ใช่ไหมครับแบบว่าโหลดมาเปิดในโปรแกรม python แล้วลอง run ดูได้เลย
ลองได้ครับจาก link ต้นทาง
กดเข้าไปแล้ว Copy to Drive
จากนั้นเลือก Runtime->Run all ก่อน 1 ครั้งเพื่อติดตั้งแพคเกจและโหลดโมเดล
ลองเปลี่ยน input_sentence แล้วกด run cell นั้นได้เลย
ขอบคุณครับ ลองแปะประโยคสั้นๆดูก็ยังมีแปลแปลกๆแต่ก็โอเคนะครับ เดี๋ยวค่อยลองไปเรื่อยๆChelsea confirm Willian and Pedro have signed short-term contracts to stay until the end of the season.
แปลว่า
Chelsea ยืนยัน Musa และ Pedro ได้ลงนามในสัญญาระยะสั้นที่จะอยู่จนกระทั่งสิ้นสุดฤดูกาล
อยากได้โมเดล OCR อ่ะมีแจกไหมหว่าตอนนี้OCR ภาษาไทยที่หายนะจริงๆจับภาพมาอ่านแล้วอิหยังวะตลอด
ทางสถาบันวิจัยกำลังทำอยู่ครับ รวมถึง speech recognition ด้วยครับ
บล็อก: wannaphong.com และ Python 3
มีข้อแม้ว่าต้องพูดภาษากลางใช่มั้ย 555