หลังจากที่ผมเขียน มาร่วมกันบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice ลง Blognone ครบ 1 ปี บทความนี้ผมจะมาเขียนบทความว่าเกิดอะไรขึ้นบ้าง เมื่อได้รับเสียงภาษาไทยบริจาคจำนวนมากถึง 300 กว่าชั่วโมง แต่ก็ยังคงต้องการรับบริจาคเสียงกับตรวจเสียงเพิ่มเติม
หลังจากที่ทาง Mozilla ปล่อยชุดข้อมูล Common Voice รุ่นที่ 7 ออกมา ทาง สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ได้เทรนโมเดล Automatic Speech Recognition ภาษาไทย โดยวัดประสิทธิภาพจาก Common Voice ที่แบ่งใหม่พบว่า มีความแม่นยำทัดเทียมกูเกิลแล้ว ซึ่งถือเป็นโมเดล Automatic Speech Recognition ภาษาไทยที่มีประสิทธิภาพมากตัวหนึ่ง
นอกจากนั้น เสียงภาษาไทยที่เพิ่มเข้ายังช่วยให้เกิดโมเดล Automatic Speech Recognition ภาษาไทยบน Hugging Face ให้เลือกใช้งานมากขึ้น (ตอนนี้มีถึง 3 โมเดล) รวมถึงมี open source ของต่างประเทศอย่าง Coqui เอาไปเทรนโมเดลภาษาไทยอีกด้วย https://coqui.ai/thai/itml/v0.1.0
กลับมาที่จำนวนชั่วโมงเสียงภาษาไทยใน Common Voice ปัจจุบันเสียง Mozilla Common Voice รุ่นที่ 8 มีจำนวนชั่วโมงเสียงภาษาไทยทั้งหมด 340 ชั่วโมง แต่ยังมีจำนวนชั่วโมงตรวจสอบเสียงเพียง 142 ชั่วโมง ยังห่างไกลจากเป้าหมายที่จะได้ชุดข้อมูลที่นำไปเทรนโมเดล Automatic Speech Recognition ภาษาไทยให้ได้เข้าใจทุกคนได้ในระดับผลิตภัณฑ์
เป้าหมายของ Common Voice คือต้องมีจำนวนชั่วโมงตรวจสอบ 10,000 ชั่วโมงขึ้นไปต่อภาษา ซึ่งทาง Common Voice ให้เหตุผลว่า “เป็นจำนวนชั่วโมงสำหรับทำโมเดลถอดเสียงเป็นข้อความได้ในระดับผลิตภัณฑ์” ด้วยเหตุนี้ทำให้แม้แต่ ภาษาอังกฤษใน Common Voice ยังไม่ถึงเป้าหมายดังกล่าว (ภาษาอังกฤษใน Common Voice ตอนนี้มีจำนวนชั่วโมงที่ตรวจสอบแล้วกว่า 2,185 ชั่วโมง)
จากจำนวนชั่วโมงการตรวจสอบเสียงที่น้อยกว่าจำนวนชั่วโมงเสียงทั้งหมดของภาษาไทย ทำให้ตอนนี้ Common Voice ภาษาไทยต้องการคนตรวจสอบเสียงภาษาไทยจำนวนมากกว่าการบริจาคเสียง การตรวจสอบเสียงแต่ละเสียงต้องมีผู้ตรวจสอบอย่างน้อย 2 คน ดังนั้นผมจึงขอเชิญชวนทุก ๆ ท่านมาร่วมกันตรวจสอบเสียงภาษาไทยกันครับ
สามารถเข้าไปร่วมตรวจเสียงภาษาไทยใน Common Voice ได้ที่ https://commonvoice.mozilla.org/th/listen
ดูวิธีตรวจสอบเสียงภาษาไทยใน Common Voice ได้ตามวิดีโอข้างล่างนี้ ของคุณ Vee Satayamas
ทุกคน ช่วยกันตรวจเสียง #commonvoice ได้เลยไม่ต้องลงแอปนะ pic.twitter.com/pgOHze9AJT
— Ego sum vir. (@veer_in_bangkok) April 7, 2022
สามารถเข้าไปบริจาคเสียงได้ที่ https://commonvoice.mozilla.org/th/speak
ดาวน์โหลดชุดข้อมูลเสียงภาษาไทย Common Voice รุ่นที่ 8 ได้ที่ https://commonvoice.mozilla.org/th/datasets
กำหนดการปล่อยชุดข้อมูล Common Voice รุ่นถัดไป ทาง Mozilla จะปล่อยทุก 3 เดือน แทน 6 เดือนจากเดิม ซึ่งจะตรงกับ วันที่ 24 เมษายนนี้ !!!
อ้างอิง
Comments
555+ ผมเจอประโยคเน็บรัฐด้วย 3 บรรทัดยาวมาก อ่านยังไงก็ไม่ผ่าน ผมแคปจอเก็บไว้ด้วย"กองทับ กับ สงฆ์ เป็น........."
เจอประโยคไหนไม่เหมาะสมหรือพิมพ์ผิด กด รายงาน ได้ครับ เพราะใช้ระบบ Crowdsourcing ประโยคที่มีในระบบมาจากการบริจาคครับ
บล็อก: wannaphong.com และ Python 3
ผมลองเอามือถือไอโฟนอัดเสียง มีบางประโยคเวลาผมกดฟัง เสียงมันหายไปช่วงท้าย แบบเงียบไปเลย เพราะอะไรนะครับ แต่ประโยคอื่นที่อัดก็เสียงมาครบ แปลกดี
ได้เปิดแยกเสียงไหมครับ น่าจะเพราะเป็นฟังก์ชันแยกเสียงของ iOS ครับ ผมใช้วิธีพูดอัดแล้วเว้นสัก 3 วินาทีค่อยกดหยุดอัด ได้ผลอยู่ครับ
บล็อก: wannaphong.com และ Python 3
คราวก่อนผมทำอยู่ประมาณเกือบสิบวัน 2-3 วันแรกคนช่วยกันเอยะมาก ๆ ๆ แต่พอผ่าน 2-3 วันแรกเท่านั้นแหละ หายเกือบหมดเลย (ผมก็ค่อย ๆ ลดลง) TT^TT
เทคโนโลยีไม่ผิด คนใช้มันในทางที่ผิดนั่นแหละที่ผิด!?!
TT^TT เป็นโปรเจคที่ต้องการความสม่ำเสมอพอควรครับ แม้แต่ผมยังทำได้แบบมากสุดรายสัปดาห์ ที่เหลือ แบบพอว่าง ๆ ถึงมาช่วยครับ ส่วนตัวผมว่าอัดเสียงง่ายและสะดวกกว่าตรวจสอบเสียงพอควรครับ
บล็อก: wannaphong.com และ Python 3
ถ้าช่วยกันทำ 10 ล้านคนแค่ 3 วันก็ได้เยอะครับ ?
อยากให้ได้ตามเป้าหมายไวๆ คงเป็นประโยชน์อีกเยอะเลย
แชร์แล้วใช่ไหมครับ ??
มันได้เอาไปใช้กับอันนี้หรือเปล่าครับ https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API
อันนี้สามารถออกมาเป็น TTS ได้ด้วยไหมครับ เห็นเนื้อข่าวอ้างอิงแต่ Speech Recognition
บ้านเราไม่มี Thai TTS ที่ใช้งานบน Windows เพิ่มเติมมานานมากแล้ว T_T
ล่าสุดก็ต้องรอ Microsoft เพิ่มคุณเปรมวดี เข้ามาใน One Core Voice ซึ่งก็ยังไม่รู้ว่าเมื่อไหร่
@ Virusfowl
I'm not a dev. not yet a user.