OpenAI เริ่มทำ web crawler สำหรับดูดเว็บของตัวเอง แม้ในเว็บจะไม่ได้ระบุว่าจะดูดเว็บไปทำอะไรแต่ก็ระบุว่าข้อมูลที่ดูดไปอาจจะใช้สำหรับโมเดลปัญญาประดิษฐ์ในอนาคต
ตัว crawler จะใช้ User-Agent ว่า GPTBot
สามารถกำหนดห้ามเข้าส่วนต่างๆ ของเว็บได้ทางไฟล์ robots.txt และทาง OpenAI ยังประกาศ หมายเลขไอพีขาออก
เพื่อให้เว็บไซต์บล็อคหรือตรวจสอบได้ว่าเป็น crawler ของ OpenAI จริง
ที่ผ่านมา OpenAI ไม่ได้เปิดเผยว่าตัว GPT ตัวหลังๆ ฝึกจากชุดข้อมูลใดบ้าง และแม้ว่าจะมีระบบปลั๊กอินให้ดูดเว็บได้ แต่ก็เป็นการอ่านเนื้อหาในเว็บเข้าไปให้ ChatGPT สรุปมาอีกทีเท่านั้น ไม่ใช่การฝึกโมเดลโดยตรง
ที่มา - OpenAI
Comments
ดูดเว็บไปฝึก นี้น่าจะไม่ work สำหรับ AI นะครับผมว่า
ข้อมูลในเว็บมันมีที่ผิดๆ ค่อนข้างเยอะ
จาก AI ที่ให้คำตอบผิดบ่อยอยู่แล้ว จะกลายเป็นผิดมากกว่าเดิม
AI ของ bing ก็คือกัน ผมถามอะไร มันก็เอา link เว็บอื่นมาให้ใช้ search engine ธรรมดา จะประหยัดไฟรักโลกมากกว่าไหม
+1
ตอบมาให้แค่ 2-3 บรรทัด แล้วแปะลิงค์มาให้ ...
ไม่ได้ช่วยอะไรเลย
WE ARE THE 99%
แต่ยิ่งข้อมูลเยอะขึ้น มันจะฉลาดกว่าเดิมแน่ๆ ส่วน ผลลัพผิดหรือถูกขนาดไหน มนุษต้องลองใช้เอง ส่วนการเอา ดาต้าไปใช้จะผิดกฎหมายอะไรรึป่าว ตามที่อีลอนมัส บอก ยิ่งกฏหมาย ai ยังไม่มีด้วย แต่ก็เป็นธรรมชาติ คือปัญหา มันจะมาก่อนกฏหมายเสมอ
ข้อมูลที่ใช้ฝึกเดิมก็ดูดมานะครับ
lewcpe.com , @wasonliw
ผมคิดว่าข้อมูลชุดแรกๆ น่าจะมีการ clean น่ะครับ
แต่ถ้าไป crawling auto แบบนี้อาจจะไม่กรองอะไรเลย
คิดว่าก็น่าจะใช้ AI นั้นแหล่ะทำการกลองข้อมูลตอนแรกที่่เอาคนกลองข้อมูลชุดแรกๆ น่าจะมีข้อมูลการขัดกลองมากพอจะเอามาเทรนAIเพื่อกลองข้อมูลได้แล้วแหล่ะ
if useragent eq "GPTBot" .... fake data ....
ถ้ามีกฎหมายออกมาให้เดต้าเซ็ทต้องมีlicenseถูกต้องนี่คือ เจ๊งได้เลยบริษัทนี้
ยังดีที่มี User-Agent บอก