NVIDIA โชว์การปรับปรุง โมเดลภาษา Mistral NeMo 12B ที่เปิดตัวในเดือนกรกฎาคม ให้มีขนาดพารามิเตอร์ลดลงเหลือ 8B แต่ไม่สูญเสียประสิทธิภาพมากนัก ผลคือโมเดล Mistral-NeMo-Minitron 8B ที่ปรับขนาดลดลงแล้ว เอาชนะโมเดลคู่แข่งระดับใกล้เคียงกันอย่าง Llama 3.1 8B และ Gemma 7B ในเบนช์มาร์ค AI ทุกตัวได้
เทคนิคการปรับลดขนาดโมเดลที่ NVIDIA ใช้งานมี 2 อย่าง ได้แก่
- Model Pruningปรับขนาดโมเดลให้เล็กลง โดยลดจำนวนชั้น (depth pruning) หรือ ลดจำนวนนิวรอน (width pruning) การทำ pruning มักต้องเทรนโมเดลใหม่บางส่วนเพื่อให้การทำงานยังแม่นยำอยู่
- Model Distillationเป็นเทคนิคที่โยกย้ายองค์ความรู้ (knowledge) ของโมเดลขนาดใหญ่ (teacher model) ไปยังโมเดลขนาดเล็ก (student model) เพื่อให้ได้โมเดลขนาดเล็กลง แต่ยังรักษาคุณสมบัติของโมเดลตัวใหญ่เอาไว้ได้ เปรียบเสมือนการเทรนใหม่แบบเบาๆ (light retraining) ที่ทำหลัง pruning
NVIDIA ใช้วิธี depth pruning แล้วมาทำ distillation จนได้โมเดล Mistral-NeMo-Minitron 8B รายละเอียดอยู่ในเปเปอร์ Compact Language Models via Pruning and Knowledge Distillation
ที่มา - NVIDIA
Hiring! บริษัทที่น่าสนใจ