Cerebras ผู้ผลิตชิปปัญญาประดิษฐ์รัน LLM ความเร็วสูงที่ สามารถรัน Llama 3.1 405B ได้ความเร็วถึง 969 token/s เปิดเผยถึงแนวทางการออกแบบชิปที่ทำให้สามารถให้บริการได้เร็วระดับนี้ ว่าอาศัยการสร้างชิปขนาดใหญ่ที่มีคอร์จำนวนมหาศาลอยู่ภายใน
แนวทางที่ Cerebras ใช้พัฒนาคือชิป Wafer Scale Engine ของบริษัทนั้นกินพื้นที่เต็มเวเฟอร์ จำนวนคอร์สูงถึง 970,000 คอร์ กินพื้นที่ 46,225 ตารางมิลลิเมตร เทียบกับชิป NVIDIA H100 ที่ขนาดเพียง 814 ตารางมิลลิเมตร ซึ่งก็นับว่าใหญ่มากแล้วเมื่อเทียบกับซีพียูที่เราใช้งานทั่วไป กระบวนการผลิต TSMC 5nm นั้นมีอัตราความผิดพลาดอยู่ที่ 0.001 จุดต่อตารางมิลลเมตร การที่ชิปมีขนาดใหญ่มากแสดงว่าจะมีจุดความผิดพลาดเกิดขึ้นในชิปอย่างค่อนข้างแน่นอน
ผู้ผลิตชิปแทบทุกรายออกแบบชิปให้ทนทานต่อความผิดพลาดการผลิตได้อยู่แล้ว โดยมักใส่จำนวนคอร์ หรือแคช เกินกว่าสเปคที่ขายจริงและเมื่อทดสอบส่วนใดพบความเสียหายก็จะปิดการทำงานในส่วนนั้นไป หรือแยกเกรดชิปออกมาขายคนละราคาแม้ที่จริงจะเป็นชิปที่ผ่านกระบวนการผลิตเดียวกัน
แต่แนวทางของ Cerebras ดันแนวทางนี้ไปไกลกว่าผู้ผลิตอื่นๆ ด้วยการใส่คอร์จำนวนมหาศาลเอาไว้ แต่ชิปสามารถเปิดปิดคอร์ที่เกิดความเสียหายได้อย่างอิสระ และการออกแบบตัวคอร์เองยังมีขนาดเล็กมาก แต่ละคอร์กินพื้นที่เพียง 0.05 ตารางมิลลิเมตร เทียบกับคอร์ H100 ที่กินพื้นที่ 6 ตารางมิลลิเมตร ทำให้เมื่อทดสอบผ่านแล้วชิปที่ทำงานจริงจะมีพื้นที่ซิลิกอนทำงาน 93% ของพื้นที่ทั้งหมด
Cerebras อยู่ระหว่างการนำหุ้นเข้าซื้อขายในตลาด Nasdaq คาดว่าจะเข้าได้กลางปีนี้ แม้บริษัทยังมีผลขาดทุนอยู่
ที่มา - Cerebras
Comments
โค๊ะ นึกภาพตามไม่ออกเลย น่าจะใหญ่มาก ถ้ามีภาพของจริงประกอบน่าจะดี
ข่าวเก่า
ถ้ามีเวลาแล้วก็พอฟังภาษาอังกฤษได้ ลองดูอันนี้ดูครับ
https://www.youtube.com/watch?v=f4Dly8I8lMY
gigantic ai อย่าง llm จะ กระตุก ให้ รื้อ/เร่ง ทำขนาด 450 หรือใหญ่กว่า , มั้ยนะ 🤔
ตาม process method , ยังมีการใช้พื้นที่ระหว่าง สี่เหลี่ยม กับ วงกลม อยู่รึป่าว .. หรือว่าโดน ignore ไปนานละ , ชิป เป็น สี่เหลี่ยม คือ เหมาะสุด แล้ว ? 😶