Tags:
Node Thumbnail

Hugging Face เผยแพร่ผลการจัดอันดับ LLM leaderboard ครั้งที่สอง โดยนำโมเดล LLM แบบเปิด (open large language model) มาทดสอบในการทำงานด้านต่าง ๆ

การทดสอบของ Hugging Face สนใจใน 4 งานได้แก่ วัดความรู้, ให้เหตุผลจากเนื้อหาขนาดยาวมาก, การคำนวณคณิตศาสตร์ที่ซับซ้อน และการอธิบายวิธีการขั้นตอน โดยใช้ตัววัดผล 6 อย่าง ได้แก่ MMLU-Pro, GPQA, MuSR, MATH, IFEval และ BBH

ผลการทดสอบรวม โมเดล Qwen2-72B-Instruct ของ Qwen จาก Alibaba ได้คะแนนรวมอันดับ 1 ตามด้วย Meta-Llama-3-70B-Instruct ของ meta-llama จาก Meta เป็นอันดับที่ 2 และ Qwen/Qwen2-72B ของ Qwen เช่นกัน อยู่ในอันดับที่ 3 นอกจากนี้ Qwen ยังติดอันดับที่ 10 และ 11 ด้วย (Qwen/Qwen1.5-110B และ Qwen/Qwen1.5-110B-Chat)

ในการทดสอบนี้ไม่มี ChatGPT ของ OpenAI รวมอยู่ด้วย เนื่องจากเป็นโมเดล LLM แบบปิด ซึ่ง Hugging Face ให้เหตุผลว่าเพราะจะไม่สามารถทำซ้ำผลทดสอบได้

Clem Delangue ซีอีโอ Hugging Face ให้ ข้อมูลเพิ่มเติม ว่า การทดสอบนี้ใช้จีพียู H100 ของ NVIDIA 300 ตัว ในการประมวลผล และพบเรื่องน่าสนใจเช่น การทดสอบจากนี้จะมีแต่ซับซ้อนและยากมากขึ้น และโมเดลขนาดใหญ่พารามิเตอร์เยอะ ไม่ได้แปลว่าจะฉลาดกว่าเสมอไป

ที่มา: Hugging Face

No Description

ผลการจัดอันดับ ( ดูทั้งหมดที่นี่ )

No Description

Get latest news from Blognone

Comments

By: dheerapat on 29 June 2024 - 18:45 #1315788

ผมใช้ qwen2 7B instruct อยู่ ใช้ sagemaker inference แอบหวังให้ AWS เพิ่ม qwen2 ลงใน bedrock เหมือนกัน ถามตอบเป็นธรรมชาติจริงๆนะ แม้แต่ตัวเล็กสุด(0.5B)ก็ค่อยข้างโอเคในงานสั้นๆเล็กๆ

By: Fzo
Contributor Android
on 29 June 2024 - 19:55 #1315793
Fzo's picture

เห็นด้วยเลยครับ Qwen2 7B instruct ใช้ทุกวัน โอเคจริง ส่วนตัวที่ใช้ ได้ผลดีกว่า llama3 หรือแม้แต่ gemma2 ที่เพิ่งออกมาซะอีก


WE ARE THE 99%

By: rbus
Contributor iPhone Android Ubuntu
on 30 June 2024 - 18:44 #1315828

qwen2 ตอบไทยได้ดีกว่า llama 3