ทีม AI ของ Google เขียนบล็อคเผยว่าระบบ speech recognition ใน GBoard (พูดแล้วแปลงเป็นคำ) บน Google Pixel จะรองรับการประมวลผลในเครื่องแทนที่จะประมวลผลจากเซิร์ฟเวอร์ในแบบเดิม ช่วยลด latency ในการประมวลผลเสียงเป็นคำลง รวมถึงสามารถใช้ได้แบบออฟไลน์ด้วย
การเปลี่ยนแปลงนี้เกิดขึ้นได้ ส่วนหนึ่งก็จากบน Pixel 2 และ 3 มี Pixel Visual Core ที่รองรับการประมวลผล ML ในเครื่องเลย อีกส่วนคือการเปลี่ยนแปลงโมเดลของระบบ speech recognition จากเดิมที่เป็นแบบ sequence-to-sequence ประมวลผลเสียงพูดออกมาเป็นคำหรือประโยค ซึ่งกระบวนการนี้มีข้อจำกัดเรื่องความหน่วง ไม่รองรับการประมวลผลทั้งขา input (พูด) และ output (แสดงคำ/ประโยค) ในเวลาเดียวกัน
โมเดลใหม่ที่ทีม AI นำมาใช้ใน GBoard คือ RNN-T (Recurrent Neural Network Transducer) ช่วยให้สามารถแปลงจากเสียงเป็นคำได้แบบเรียลไทม์ ซึ่ง Google บอกไม่เพียงแต่ลดความหน่วงลง แต่ยังแม่นยำขึ้นราว 5% รวมถึงตัวโมเดลก็มีขนาดเล็กลง (250MB เมื่อเทียบกับโมเดลเดิมที่ 2GB ก่อนที่ทีม AI จะลดขนาดลงไปอีกให้เหลือเพียง 80MB เพื่อให้เหมาะสมกับการประมวลผลบนมือถือ) รายละเอียดเพิ่มเติมสามารถอ่านได้จากที่มา
ทั้งนี้ระบบ speech recognition ใหม่บน GBoard นี้รองรับเฉพาะภาษาอังกฤษแบบอเมริกันอย่างเดียวก่อนเท่านั้น
ที่มา - Google AI Blog via Venturebeat
Comments
อ้าว จำกัดเฉพาะ GBoard อีก น่าจะฝังลงระบบของเครื่องไปเลย
นี่ Android Pie ผมก็ต้องย้ายจาก Microsoft Launcher ไปอยู่กับ Pixel Launcher ไปอย่างนึงละนะ ไม่งั้นเวลาสลับแอปแล้วบั๊กเพียบ (เพราะหน้าสลับแอปมันต้องเรียก Pixel Launcher มาทำงาน คนบ่นกันเพียบ)
ลองแล้วเร็วขึ้นมาก แทบจะ real-time เลย
ทำไมผมยังไม่ได้อัปเดตเลยครับ T-T
edit - อ้อ มันต้องไปตั้งค่าเพิ่ม ดาวน์โหลดเพิ่มอีกนิดนึง
นอกจาก Pixel มีเจ้าไหนอีกที่มีชิบตัวนี้บ้างครับ
น่าจะยากครับ ชิพนี้ออกแบบโดย Google
เร็วมากครับ