เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง
การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก
wav2vec-U ต้องการข้อมูลสำหรับฝึกเป็นเพียงเสียงพูดของแต่ละภาษาโดยไม่ต้องมีข้อความประกบแต่อย่างใด อีกทางหนึ่งคือข้อความในภาษาเดียวกันแต่อาจจะเป็นคนละเรื่องราวกันเลยก็ได้ (unlabeled data) ข้อมูลทั้งสองชุดสามารถนำมาสร้างปัญญาประดิษฐ์ที่แปลงเสียงเป็นข้อความออกมาได้
กระบวนการทำงานภายในของ wav2vec-U เป็นการสร้างปัญญาประดิษฐ์เพื่อแปลงเสียงออกมาเป็นคำอ่าน (phonemize) และแปลงข้อความออกมาเป็นคำอ่านเช่นกัน จากนั้นอาศัยปัญญาประดิษฐ์ discriminator พยายามตัดสินว่าคำอ่านที่ได้นั้นมาจากข้อความจริงหรือมาจากการแปลงเสียง ระหว่างการฝึกปัญญาประดิษฐ์เมื่อ discriminator เก่งขึ้นเรื่อยๆ ตัวปัญญาประดิษฐ์ที่แปลงเสียงเป็นคำอ่านก็ต้องพยายามสร้างข้อความที่สมจริงขึ้นเรื่อยๆ จนได้เป็นการแปลงเสียงเป็นข้อความ
การทดสอบประสิทธิภาพของ wav2vec-U ด้วยชุดทดสอบ Librispeech ได้คะแนน word error rate (WER) อยู่ที่ 5.9 ระดับเดียวกับปัญญาประดิษฐ์ที่ใช้ข้อมูลแปลงเสียงเป็นข้อความโดยตรงที่ดีที่สุดในปี 2019
ที่มา - Facebook AI Blog
It also works in languages other than English, see the Swahili demo below. So far we tried it on Kyrgyz, Tatar, German, Dutch, French, Spanish, Portuguese, Italian. pic.twitter.com/rdgQhmQtrd
— Michael Auli (@MichaelAuli) May 21, 2021
Comments
สงสัยว่า discriminator นี่มันต้องถูกเทรนมาแล้วป่าวครับ เพื่อตัดสินได้ว่าคำที่ออกมานั่นมัน fake or real เพื่อให้ feed back กลับไป generator ถูกต้องเป็น real
มือใหม่!! ใหม่จริงๆนะ
ปกติพวกนี้ก็เทรนไปพร้อมกันเลยนะครับ เพราะมันรู้อยู่แล้วว่าข้อความไหนจริงข้อความไหนหลอก
lewcpe.com , @wasonliw
ถ้าหมายถึง wave2vec-u คือ ทางเฟสบุ้คเขาทำ pre-trained ไว้แล้วครับ เอามา transfer กับ task ของเราได้เลย
เดาว่ามันก็ต้องถูกเทรนนะ แต่อาจจะเทรนเรื่องข้อความอย่างเดียว ไม่ต้องการเสียงจุดประสงของ AI ชุดนี้คงเป็นการลดการใช้เสียงคู่กับข้อความในการเทรน เพราะตัวอย่างมันมีน้อย
ผมใช้ฟังก์ชั่นคำบรรยายคลิปอัตโนมัติ (แปลงเสียงเป็นข้อความ) คลิปความยาวเป็นชั่วโมง AI facebook ใช้เวลาแปลงแค่ 1-2 นาที
ไม่น่าเป็นไปได้
เดาว่ามันแปลงเสียงเป็นข้อความอัตโนมัติแม้เราไม่ได้อนุญาตหรือเปล่า พอเรากดอนุญาตถึงได้เร็วขนาดนั้น
ส่วนแปลงเสียงเป็นข้อความของ google doc ผมว่าหลังๆมันแปลงแปลกๆ
ตอนแรกมันก็แปลงถูกนะ แต่สักพัก ระบบมันจะแก้ไขข้อความเดิมอีกรอบ
AI มันคงเห็นว่า คำพูดไม่ตรงกับบริบทที่ถูกตั้งโปรแกรมไว้มั้งครับ
กลายเป็นว่า จากที่แปลงถูก กลายเป็นแปลงผิด แถมบางครั้งมีคำหยาบแฝงเข้ามาด้วย