Tags:
Node Thumbnail

เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง

การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก

wav2vec-U ต้องการข้อมูลสำหรับฝึกเป็นเพียงเสียงพูดของแต่ละภาษาโดยไม่ต้องมีข้อความประกบแต่อย่างใด อีกทางหนึ่งคือข้อความในภาษาเดียวกันแต่อาจจะเป็นคนละเรื่องราวกันเลยก็ได้ (unlabeled data) ข้อมูลทั้งสองชุดสามารถนำมาสร้างปัญญาประดิษฐ์ที่แปลงเสียงเป็นข้อความออกมาได้

กระบวนการทำงานภายในของ wav2vec-U เป็นการสร้างปัญญาประดิษฐ์เพื่อแปลงเสียงออกมาเป็นคำอ่าน (phonemize) และแปลงข้อความออกมาเป็นคำอ่านเช่นกัน จากนั้นอาศัยปัญญาประดิษฐ์ discriminator พยายามตัดสินว่าคำอ่านที่ได้นั้นมาจากข้อความจริงหรือมาจากการแปลงเสียง ระหว่างการฝึกปัญญาประดิษฐ์เมื่อ discriminator เก่งขึ้นเรื่อยๆ ตัวปัญญาประดิษฐ์ที่แปลงเสียงเป็นคำอ่านก็ต้องพยายามสร้างข้อความที่สมจริงขึ้นเรื่อยๆ จนได้เป็นการแปลงเสียงเป็นข้อความ

การทดสอบประสิทธิภาพของ wav2vec-U ด้วยชุดทดสอบ Librispeech ได้คะแนน word error rate (WER) อยู่ที่ 5.9 ระดับเดียวกับปัญญาประดิษฐ์ที่ใช้ข้อมูลแปลงเสียงเป็นข้อความโดยตรงที่ดีที่สุดในปี 2019

ที่มา - Facebook AI Blog

No Description

Get latest news from Blognone

Comments

By: tg-thaigamer
Contributor iPhone Android Blackberry
on 23 May 2021 - 21:44 #1209961
tg-thaigamer's picture

สงสัยว่า discriminator นี่มันต้องถูกเทรนมาแล้วป่าวครับ เพื่อตัดสินได้ว่าคำที่ออกมานั่นมัน fake or real เพื่อให้ feed back กลับไป generator ถูกต้องเป็น real


มือใหม่!! ใหม่จริงๆนะ

By: lew
Founder Jusci's WriterMEconomics Android
on 24 May 2021 - 01:30 #1209969 Reply to:1209961
lew's picture

ปกติพวกนี้ก็เทรนไปพร้อมกันเลยนะครับ เพราะมันรู้อยู่แล้วว่าข้อความไหนจริงข้อความไหนหลอก


lewcpe.com , @wasonliw

By: MrThursday
Contributor Red Hat Ubuntu Windows
on 24 May 2021 - 14:19 #1210040 Reply to:1209961

ถ้าหมายถึง wave2vec-u คือ ทางเฟสบุ้คเขาทำ pre-trained ไว้แล้วครับ เอามา transfer กับ task ของเราได้เลย

By: langisser
In Love
on 24 May 2021 - 00:56 #1209967

เดาว่ามันก็ต้องถูกเทรนนะ แต่อาจจะเทรนเรื่องข้อความอย่างเดียว ไม่ต้องการเสียงจุดประสงของ AI ชุดนี้คงเป็นการลดการใช้เสียงคู่กับข้อความในการเทรน เพราะตัวอย่างมันมีน้อย

By: ปาโมกข์
iPhone Android Windows
on 24 May 2021 - 08:31 #1209972
ปาโมกข์'s picture

ผมใช้ฟังก์ชั่นคำบรรยายคลิปอัตโนมัติ (แปลงเสียงเป็นข้อความ) คลิปความยาวเป็นชั่วโมง AI facebook ใช้เวลาแปลงแค่ 1-2 นาที
ไม่น่าเป็นไปได้
เดาว่ามันแปลงเสียงเป็นข้อความอัตโนมัติแม้เราไม่ได้อนุญาตหรือเปล่า พอเรากดอนุญาตถึงได้เร็วขนาดนั้น
ส่วนแปลงเสียงเป็นข้อความของ google doc ผมว่าหลังๆมันแปลงแปลกๆ
ตอนแรกมันก็แปลงถูกนะ แต่สักพัก ระบบมันจะแก้ไขข้อความเดิมอีกรอบ
AI มันคงเห็นว่า คำพูดไม่ตรงกับบริบทที่ถูกตั้งโปรแกรมไว้มั้งครับ
กลายเป็นว่า จากที่แปลงถูก กลายเป็นแปลงผิด แถมบางครั้งมีคำหยาบแฝงเข้ามาด้วย