Hugging Face เผยแพร่ผลการจัดอันดับ LLM leaderboard ครั้งที่สอง โดยนำโมเดล LLM แบบเปิด (open large language model) มาทดสอบในการทำงานด้านต่าง ๆ
การทดสอบของ Hugging Face สนใจใน 4 งานได้แก่ วัดความรู้, ให้เหตุผลจากเนื้อหาขนาดยาวมาก, การคำนวณคณิตศาสตร์ที่ซับซ้อน และการอธิบายวิธีการขั้นตอน โดยใช้ตัววัดผล 6 อย่าง ได้แก่ MMLU-Pro, GPQA, MuSR, MATH, IFEval และ BBH
ผลการทดสอบรวม โมเดล Qwen2-72B-Instruct ของ Qwen จาก Alibaba ได้คะแนนรวมอันดับ 1 ตามด้วย Meta-Llama-3-70B-Instruct ของ meta-llama จาก Meta เป็นอันดับที่ 2 และ Qwen/Qwen2-72B ของ Qwen เช่นกัน อยู่ในอันดับที่ 3 นอกจากนี้ Qwen ยังติดอันดับที่ 10 และ 11 ด้วย (Qwen/Qwen1.5-110B และ Qwen/Qwen1.5-110B-Chat)
ในการทดสอบนี้ไม่มี ChatGPT ของ OpenAI รวมอยู่ด้วย เนื่องจากเป็นโมเดล LLM แบบปิด ซึ่ง Hugging Face ให้เหตุผลว่าเพราะจะไม่สามารถทำซ้ำผลทดสอบได้
Clem Delangue ซีอีโอ Hugging Face ให้ ข้อมูลเพิ่มเติม ว่า การทดสอบนี้ใช้จีพียู H100 ของ NVIDIA 300 ตัว ในการประมวลผล และพบเรื่องน่าสนใจเช่น การทดสอบจากนี้จะมีแต่ซับซ้อนและยากมากขึ้น และโมเดลขนาดใหญ่พารามิเตอร์เยอะ ไม่ได้แปลว่าจะฉลาดกว่าเสมอไป
ที่มา: Hugging Face
ผลการจัดอันดับ ( ดูทั้งหมดที่นี่ )
Comments
ผมใช้ qwen2 7B instruct อยู่ ใช้ sagemaker inference แอบหวังให้ AWS เพิ่ม qwen2 ลงใน bedrock เหมือนกัน ถามตอบเป็นธรรมชาติจริงๆนะ แม้แต่ตัวเล็กสุด(0.5B)ก็ค่อยข้างโอเคในงานสั้นๆเล็กๆ
เห็นด้วยเลยครับ Qwen2 7B instruct ใช้ทุกวัน โอเคจริง ส่วนตัวที่ใช้ ได้ผลดีกว่า llama3 หรือแม้แต่ gemma2 ที่เพิ่งออกมาซะอีก
WE ARE THE 99%
qwen2 ตอบไทยได้ดีกว่า llama 3