OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป
จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เห็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก
ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ
ที่มา - ArXiV






จริง ๆ น่าจะอีก(นาน?
tontan Thu, 17/04/2025 - 00:51
จริง ๆ น่าจะอีก(นาน?)สักพักกว่าจะแทนที่อาชีพหนึ่งได้สมบูรณ์ ชุดทดสอบอาจยังมีคนทำแบบ Pretraining on the Test Set Is All You Need อยู่และอาจไม่ได้สะท้อนโลกแห่งความเป็นจริง พอวัดไปเจอข้อจำกัดเดี๋ยวก็มีตัวใหม่ออกมาแทนที่ แต่พอนำไปใช้งานจริงยังไงต้องวัดบน task ของตัวเองอยู่ดีเพื่อความชัวร์ สิ่งที่น่ากังวลคือ Dead Internet theory น่าจะเริ่มเข้าใกล้ความเป็นจริงมากยิ่งขึ้น ต้องรีบหาทางป้องกัน อีกกรณีการนำโค้ดที่เปิดบน GitHub ไปใช้ทั้งไม่ได้ทำตาม oss license ที่ประกาศไว้และอะไรต่ออะไรอีก
ใช้จริง
PandaBaka Thu, 17/04/2025 - 02:42
ใช้จริง มันจะตกม้าตายตรงโมเดลพยายามเนียนประหยัดพลังงาน แบบสั่ง 10 ตอบ 5 อยู่น่ะสิ
ถ้าแบบนั้นก็คือไม่ผ่านชุดทดสอ
lew Thu, 17/04/2025 - 11:12
In reply to ใช้จริง by PandaBaka
ถ้าแบบนั้นก็คือไม่ผ่านชุดทดสอบนี่ครับ (ซึ่งก็ไม่ผ่านเยอะจริงๆ คะแนนตอนนี้ยังอยู่แถวๆ 25% เอง) แต่ก็เป็นหลักชัยให้การพัฒนาในอนาคต
ถ้ามันผ่านไปถึง 70-80% ในอีกสักปีสองปีนี่โดยรวมก็มีปัญหากันเยอะแล้ว
อยากเห็นผล Claude 3.7 ด้วยเลย
Pinery Thu, 17/04/2025 - 17:14
อยากเห็นผล Claude 3.7 ด้วยเลย 🤣
ยังแสดงให้เหฌ็นว่าปัญญาประดิษ
panurat2000 Thu, 17/04/2025 - 17:15
แสดงให้เหฌ็น => แสดงให้เห็น