MIT วิจัยการถอดเสียงพูดจากคลิปวิดีโอแสดงภาพวัตถุ

By: ตะโร่งโต้ง

on 18 August 2014 - 04:27 Tags:

Topics:

Research

MIT

Image Processing

แม้ข่าวนี้จะมาช้าไปหน่อย (ราว 2 สัปดาห์) แต่ก็ถือว่าควรค่าแก่การติดตาม กับผลงานการวิจัยจาก MIT เกี่ยวกับเทคนิคที่เรียกว่า Visual Microphone ซึ่งสามารถถอดรหัสเสียงจากคลิปวิดีโอที่ถ่ายภาพวัตถุในบริเวณที่มีเสียงนั้น

เราคงพอรู้จักเทคนิคการอ่านปากจากในหนังหรือตามข่าวต่างๆ ถึงความสามารถในการเข้าใจคำพูดของบุคคลได้โดยพิจารณาจากลักษณะริมฝีปากของผู้พูด และนั่นทำให้เรารู้ได้ว่าเขากำลังพูดว่าอะไรแม้ว่าในความจริงแล้วเราจะไม่ได้ยินเสียงพูดนั้น แต่ผลงานวิจัยของ MIT นั้นล้ำไปกว่านั้น เพราะอัลกอริธึมของงานวิจัยนี้สามารถรู้ถึงเสียงพูดได้โดยการวิเคราะห์การสั่นไหวของวัตถุซึ่งอยู่ในสถานที่นั้น

หนึ่งในการสาธิตผลงานวิจัยคือการติดตั้งกล้องถ่ายภาพความเร็วสูงไว้ภายนอก โดยกล้องดังกล่าวจับภาพถุงมันฝรั่งที่วางอยู่บนพื้นภายในห้อง ระหว่างกล้องและมันฝรั่งนั้นมีกระจกกันเสียงคั่นกลางไว้อยู่ ด้วยสภาพนี้กล้องถ่ายวิดีโอดังกล่าวจะไม่สามารถได้ยินเสียงในห้องได้เลย จากนั้นจึงให้คนพูดข้อความสั้นๆ ภายในห้อง ซึ่งคลื่นเสียงนั้นมีผลทำให้ถุงมันฝรั่งเกิดการสั่นสะเทือน และเมื่อนำภาพจากกล้องวิดีโอไปประมวลผล ก็สามารถถอดรหัสเสียงพูดได้โดยอาศัยจากการตรวจจับการสั่นสะเทือนของถุงมันฝรั่งในคลิปนั่นเอง

แม้คุณภาพของเสียงที่ถอดมาได้นั้นจะมิได้ชัดเจนเท่าเสียงจริงในเหตุการณ์จริง แต่มันก็เพียงพอที่จะทำให้เข้าใจถ้อยคำพูดของคนที่อยู่ในห้องได้ หรือในอีกตัวอย่างหนึ่ง ผลการถอดรหัสเสียงที่ได้เป็นเสียงเพลงที่ไม่เพียงมนุษย์จะรับรู้ได้ทันทีว่าคือเพลงอะไร แต่กระทั่งซอฟต์แวร์ค้นหาเพลงออนไลน์ก็ยังสามารถหาเพลงที่สัมพันธ์กับผลการถอดรหัสนั้นได้ถูกต้องเช่นกัน

ในด้านหนึ่งงานวิจัยนี้ชวนให้นึกถึงการพัฒนาเทคนิคการจารกรรมข้อมูล หรือการลอบดักฟัง แต่การใช้งานจริงยังคงมีข้อจำกัดจากปัจจัยภายนอกอีกหลายประการ เพราะการที่จะใช้อัลกอริธิม Visual Microphone นี้ได้ จำเป็นต้องมีการถ่ายภาพด้วยกล้องความเร็วสูง ทั้งยังต้องควบคุมให้กล้องและวัตถุที่ถูกถ่ายวิดีโอนิ่งให้มากที่สุด ซึ่งยังคงยากที่จะทำได้จริงในบริเวณทั่วไปนอกพื้นที่วิจัย

ที่มา - The Next Web

Hiring! บริษัทที่น่าสนใจ

ttb bank

“Transform the future of banking and unlock a new world of possibilities with us”

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

Carmen Software

Hotel Financial Solutions

Comments

By: panurat2000

on 18 August 2014 - 07:03 #732651

ซึ่งคลื่้นเสียงนั้นมีผลทำให้ถุงมันฝรั่งเกิดการสั่นสะเทือน

คลื่้นเสียง => คลื่นเสียง

By: มายองเนสจัง

on 18 August 2014 - 07:45 #732654

Eagle Eye

By: RedWing

on 18 August 2014 - 09:13 #732665 Reply to:732654

นึกถึงเรื่องนี้เหมือนกันเลย

By: Pinery

on 18 August 2014 - 12:08 #732712 Reply to:732654

เป๊ะเลย นึกถึงหนังเรื่องนี้ทันที

สุดยอดเวลามันเข้าใกล้ความจริงเนี่ย

By: 100dej

on 18 August 2014 - 08:34 #732656

พัฒนาการของกล้องวงจรปิดซินะ

By: e.p.

on 18 August 2014 - 10:28 #732682

ส่วนที่ใช้กล้องความเร็วสูงผมไม่รู้สึกว่ามีอะไรใหม่ (ตอนเด็กๆ อ่านเจอว่าเค้ายิง laser ไปแล้ววัดความเปลี่ยนแปลงคลื่นสะท้อนเอา ซึ่งมันคือลักษณะเดียวกัน) แต่ตอนช่วงหลังเค้าใช้กล้อง DSLR ธรรมดาที่ถ่ายได้ 60 fps แต่อาศัยความที่มันใช้ rolling shutter (shutter ไม่ได้ทำงานพร้อมกันทั้งเฟรม แต่ว่าทำทีละเส้นแล้ววนไปเรื่อยๆ แบบที่ถ้าเราส่ายกล้องไปมาระหว่างถ่าย เราจะเห็นวัตถุที่ถ่ายโย้ไปเย้มาได้นั่นแหละ) นั่นถึงทำให้ผมทึ่ง

By: deaw on 18 August 2014 - 11:12 #732695

หมายความว่า frame per sec = sampling rate รึป่าว แสดงว่า ถ้า fps น้อยก็จะได้เสียงแบบตัวโน้ตเดี่ยวๆ เหมือนเครื่องเกม 8bit ผมเข้าใจถูกมั้ย / แต่ผมว่ามันว้าววแฮะ

By: HackKingSoft

on 18 August 2014 - 11:22 #732699

Jusci

By: Bound

on 18 August 2014 - 17:18 #732817

สุดยอดจริง ๆ...

By: shikima

on 18 August 2014 - 21:30 #732911

ลมพัดใบไม้ แม่บ้านหยิบถุงไปทิ้ง

mission fail!!