เรื่องเสียงพูดจากคอมพิวเตอร์ก็เป็นอีกประเด็นที่หลายเจ้าพยายามทำให้เหมือนเสียงมนุษย์มากที่สุด ล่าสุดวิศวกรของกูเกิลทีมหนึ่งได้ตีพิมพ์เอกสารนำเสนอระบบสร้างเสียงพูดตัวใหม่ในชื่อ Tacotron 2 ที่ฟังแล้วแยกแทบไม่ออกว่าเป็นเสียงมนุษย์หรือเสียงจากระบบนี้
Tacotron 2 จะสร้าง spectrogram หรือรูปที่แสดงให้เห็นว่าคำพูดควรจะมีเสียงอย่างไร แล้วเอารูปนี้ไปผ่านอัลกอริทึม WaveNet ของกูเกิลเอง ทำให้ได้เสียงพูดที่เหมือนมนุษย์มาก
นักวิจัยระบุว่าเสียงพูดจาก Tacotron 2 ได้คะแนน Mean Opinion Score (MOS) ที่ 4.53 ในขณะที่เสียงพูดของมนุษย์ที่อัดมาอย่างดีได้คะแนน 4.58 โดย MOS คือคะแนนที่วัดว่าเสียงใดๆ มีความเป็นธรรมชาติแค่ไหน
ตัวอย่างของกูเกิลแสดงให้เห็นว่า Tacotron 2 อ่านข้อความและเข้าใจความแตกต่างระหว่างคำว่า "desert" ที่เป็นคำนาม และ "desert" ที่เป็นคำกริยา หรือคำว่า "present" ที่เป็นคำนาม และ "present" ที่เป็นกริยา ทำให้มันออกเสียงแต่ละคำไม่เหมือนกัน
นักวิจัยได้เปิด หน้าเว็บ ให้คนมาลองฟังประโยคสั้นๆ เทียบระหว่างเสียงจาก Tacotron 2 กับเสียงมนุษย์ ถ้าสนใจลองกดเข้าไปฟังกันได้ เลื่อนลงมาล่างสุดตรงหัวข้อ Tacotron 2 or Human? และดูเฉลยได้จากที่มา ว่าทายถูกกันบ้างหรือไม่ รวมถึงเข้าไปดูเปเปอร์ฉบับเต็มได้ ที่นี่
ที่มา - Inc.
Comments
ใส่เสียง Miku ด้วยสิครับ
มิกุก็ไม่ใช่เสียงสังเคราะห์ 100% นักครับ มีคนที่ให้เสียงอยู่อีกต่อ
ผมคิดว่า น่าจะมีตัวแปรเริ่มต้นบางตัวที่สามารถเปลี่ยนเสียงให้เป็นเสียงของคนอื่นอยู่น่ะครับ
อีกอย่างคือ Vocaloid มันแย่มากเกินกว่าจะเอาไปใช้งานจริงจัง ถ้าเอามาทำตรงนี้ได้ด้วยก็น่าสนใจมาก
อนาคตจะให้มีเลือกเสียงคนโปรดได้ด้วย อยากได้เสียงหวานๆ จ่ายตัง
ถ้าเป็นได้จริงก็ดีเลย อยากให้เสียงผู้ล่วงลับไป ยังอยุ่ไรงี้
มือใหม่!! ใหม่จริงๆนะ
อยากได้เครื่องแปลภาษา เรียวไทมเลย เสียงดีแล้วกำแพงภาษา จะได้หมดสักที
มาแน่ครับ คำถามคือเมื่อไหร่
อย่างเสียงสังเคราะห์ที่เป็นธรรมชาติแบบนี้ ผมเดาว่าจะมาซักช่วง 2020 แต่ก็ปรากฏในต้นปี 2018 นี่เอง ความรู้สึกผม 'มาเร็วกว่าที่คิดแหะ'
มันคือ Pixel Buds ไหม
อยากให้ภาษาไทยมีบ้างเร็วๆ เบื่อฟังเสียงกระจกหกด้านแล้ว
ต่อไปเราจะเห็น AI ร้องเพลง
อาจจะเป็นวง Claris ก็ได้ครับ
I need healing.
แยกไม่ออกจริงด้วย..
May the Force Close be with you. || @nuttyi
เลียนเสียงนักร้องvitasทีครับ อะอ๊ะอาา
ขอเสียงแบบ Scarlett Johansson