Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ความเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น ( เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์ )
Cerebras บริษัทผู้พัฒนา ชิปเร่งความเร็ว AI ที่คุยว่าทำงานได้เร็วกว่าจีพียู โชว์ประสิทธิภาพการรันโมเดล Llama 3.2 ขนาด 70B ด้วยอัตราตอบสนอง 2,100 โทเคนต่อวินาที สูงกว่า ที่โชว์เมื่อรอบก่อนทำได้ 450 โทเคนต่อวินาที โดย Cerebras บอกว่าเป็นการรันบนชิป Wafer Scale Engine 3 (WSE-3) ตัวเดิม แต่ปรับแต่งซอฟต์แวร์ไปอีกมากเพื่อให้ได้ประสิทธิภาพเพิ่มขึ้นจากเดิมมาก
Cerebras โชว์ตัวเลขข่มว่าสถิติ 2,100 โทเคนต่อวินาที สูงกว่าที่จีพียูทำได้ 16 เท่า และถ้าเทียบกับการเช่าคลาวด์รันจะทำได้สูงกว่า 68 เท่า
Cerebras Systems บริษัทผู้พัฒนาชิปประมวลผลสำหรับงาน AI ยื่นเอกสารไฟลิ่งเพื่อเตรียมนำบริษัทไอพีโอเข้าตลาดหุ้น โดยจะซื้อขายในตลาดแนสแดคด้วยตัวย่อ CBRS
Cerebras เป็นผู้พัฒนาชิปประมวลผล ซึ่งมี TSMC เป็นพาร์ตเนอร์หลักในการผลิต มีชิปรุ่นล่าสุด WSE-3 ซึ่งระบุว่ามีจำนวนคอร์และหน่วยความจำมากกว่า H100 ของ NVIDIA นอกจากนี้บริษัทยังให้ บริการคลาวด์ สำหรับงานประมวลของตนเองด้วย
Cerebras บริษัทชิปปัญญาประดิษฐ์ เปิดบริการ Cerebras Inference รันโมเดล Llama 3.1 ที่ความเร็วสูง โดยสามารถรัน Llama 3.1 70B ที่ 450 token/s ขณะที่ Llama 3.1 8B ได้ถึง 1,800 token ต่อวินาที นับว่าเป็นบริการที่ความเร็วสูงที่สุดในโลกในตอนนี้ จากเดิมที่ Groq ทำได้ที่ 750 token/s
จุดขายของ Cerebras คือชิป Wafer Scale Engine ที่ใส่ SRAM ความเร็วสูง 44GB อยู่บนตัวชิป เชื่อมต่อกับหน่วยประมวลผลที่แบนวิดท์รวมสูงถึง 21 Petabytes/s เทียบกับชิป NVIDIA H100 ที่แม้แบนวิดท์จะสูงแล้วแต่ก็ได้เพียง 3.3 Terabytes/s แนวทางนี้มีความจำเป็นสำหรับการรันโมเดลให้มีความเร็วเนื่องจากข้อมูลแต่ละ token จะต้องผ่านโมเดลทั้งหมด เช่นโมเดล 70B การรันโมเดลให้ได้ 1000 token/s จะต้องการแบนวิดท์ถึง 140 Terabytes/s
Cerebras Systems บริษัทผู้พัฒนาชิปประมวลผล AI ที่ก่อตั้งโดยอดีตพนักงาน AMD เปิดตัวชิปรุ่นใหม่ WSE-3 ที่มีจำนวนทรานซิสเตอร์มากถึง 4 ล้านล้านตัว, มีคอร์ประมวลผล AI จำนวน 9 แสนคอร์, แรม SRAM บนชิปขนาดใหญ่ 44GB, สมรรถนะประมวลผล AI 125 petaflops
ชิป Cerebras WSE-3 สามารถนำไปต่อกับหน่วยความจำภายนอกได้สูงสุด 1.3PB รองรับการเทรนโมเดลในอนาคตที่มีขนาดใหญ่กว่า GPT-4 หรือ Gemini ได้ 10 เท่า (โมเดลขนาด 24 ล้านล้านพารามิเตอร์ เก็บในหน่วยความจำผืนเดียวโดยไม่ต้องแบ่งส่วน)