เฟซบุ๊กสร้าง AI แปลงเสียงเป็นข้อความ ฝึกด้วยการใส่เสียงคนพูดและข้อความแยกกัน ไม่ต้องแปลงให้ดู

By: lew

on 23 May 2021 - 20:46 Tags:

Topics:

Facebook

Artificial Intelligence

เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง

การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก

wav2vec-U ต้องการข้อมูลสำหรับฝึกเป็นเพียงเสียงพูดของแต่ละภาษาโดยไม่ต้องมีข้อความประกบแต่อย่างใด อีกทางหนึ่งคือข้อความในภาษาเดียวกันแต่อาจจะเป็นคนละเรื่องราวกันเลยก็ได้ (unlabeled data) ข้อมูลทั้งสองชุดสามารถนำมาสร้างปัญญาประดิษฐ์ที่แปลงเสียงเป็นข้อความออกมาได้

กระบวนการทำงานภายในของ wav2vec-U เป็นการสร้างปัญญาประดิษฐ์เพื่อแปลงเสียงออกมาเป็นคำอ่าน (phonemize) และแปลงข้อความออกมาเป็นคำอ่านเช่นกัน จากนั้นอาศัยปัญญาประดิษฐ์ discriminator พยายามตัดสินว่าคำอ่านที่ได้นั้นมาจากข้อความจริงหรือมาจากการแปลงเสียง ระหว่างการฝึกปัญญาประดิษฐ์เมื่อ discriminator เก่งขึ้นเรื่อยๆ ตัวปัญญาประดิษฐ์ที่แปลงเสียงเป็นคำอ่านก็ต้องพยายามสร้างข้อความที่สมจริงขึ้นเรื่อยๆ จนได้เป็นการแปลงเสียงเป็นข้อความ

การทดสอบประสิทธิภาพของ wav2vec-U ด้วยชุดทดสอบ Librispeech ได้คะแนน word error rate (WER) อยู่ที่ 5.9 ระดับเดียวกับปัญญาประดิษฐ์ที่ใช้ข้อมูลแปลงเสียงเป็นข้อความโดยตรงที่ดีที่สุดในปี 2019

ที่มา - Facebook AI Blog

No Description

It also works in languages other than English, see the Swahili demo below. So far we tried it on Kyrgyz, Tatar, German, Dutch, French, Spanish, Portuguese, Italian. pic.twitter.com/rdgQhmQtrd

— Michael Auli (@MichaelAuli) May 21, 2021

Hiring! บริษัทที่น่าสนใจ

Iron Software

Iron Software is an American company providing a suite of .NET libraries by engineer for engineers.

Bangmod Enterprise

The leader in Cloud Server and Hosting in Thailand.

Connext AI

Empowering businesses with AI-driven solutions for efficiency, innovation, and sustainable growth.

Comments

By: tg-thaigamer

on 23 May 2021 - 21:44 #1209961

สงสัยว่า discriminator นี่มันต้องถูกเทรนมาแล้วป่าวครับ เพื่อตัดสินได้ว่าคำที่ออกมานั่นมัน fake or real เพื่อให้ feed back กลับไป generator ถูกต้องเป็น real

มือใหม่!! ใหม่จริงๆนะ

By: lew

on 24 May 2021 - 01:30 #1209969 Reply to:1209961

ปกติพวกนี้ก็เทรนไปพร้อมกันเลยนะครับ เพราะมันรู้อยู่แล้วว่าข้อความไหนจริงข้อความไหนหลอก

lewcpe.com , @wasonliw

By: MrThursday

on 24 May 2021 - 14:19 #1210040 Reply to:1209961

ถ้าหมายถึง wave2vec-u คือ ทางเฟสบุ้คเขาทำ pre-trained ไว้แล้วครับ เอามา transfer กับ task ของเราได้เลย

By: langisser

on 24 May 2021 - 00:56 #1209967

เดาว่ามันก็ต้องถูกเทรนนะ แต่อาจจะเทรนเรื่องข้อความอย่างเดียว ไม่ต้องการเสียงจุดประสงของ AI ชุดนี้คงเป็นการลดการใช้เสียงคู่กับข้อความในการเทรน เพราะตัวอย่างมันมีน้อย

By: ปาโมกข์

on 24 May 2021 - 08:31 #1209972

ผมใช้ฟังก์ชั่นคำบรรยายคลิปอัตโนมัติ (แปลงเสียงเป็นข้อความ) คลิปความยาวเป็นชั่วโมง AI facebook ใช้เวลาแปลงแค่ 1-2 นาที
ไม่น่าเป็นไปได้
เดาว่ามันแปลงเสียงเป็นข้อความอัตโนมัติแม้เราไม่ได้อนุญาตหรือเปล่า พอเรากดอนุญาตถึงได้เร็วขนาดนั้น
ส่วนแปลงเสียงเป็นข้อความของ google doc ผมว่าหลังๆมันแปลงแปลกๆ
ตอนแรกมันก็แปลงถูกนะ แต่สักพัก ระบบมันจะแก้ไขข้อความเดิมอีกรอบ
AI มันคงเห็นว่า คำพูดไม่ตรงกับบริบทที่ถูกตั้งโปรแกรมไว้มั้งครับ
กลายเป็นว่า จากที่แปลงถูก กลายเป็นแปลงผิด แถมบางครั้งมีคำหยาบแฝงเข้ามาด้วย