กูเกิลโอเพนซอร์สตัวอ่านไฟล์ robots.txt, เตรียมผลักดันสเปกเป็นมาตรฐานอินเทอร์เน็ต

By: mk

on 2 July 2019 - 09:55 Tags:

Topics:

Google Search

Search Engine

Open Source

IETF

คนสายทำเว็บคงรู้จักไฟล์ robots.txt ที่ใช้บอกบ็อตของเครื่องมือค้นหาว่า เพจไหนบ้างที่ไม่ต้องอ่านข้อมูลไปทำดัชนีค้นหา

ฟอร์แมตของไฟล์ robots.txt เรียกว่า Robots Exclusion Protocol (REP) ใช้งานกันแพร่หลายมายาวนาน (de facto) แต่สถานะของมันไม่เคยถูกยกระดับขึ้นเป็นมาตรฐานอินเทอร์เน็ตที่มีองค์กรกลางรับรองมาตลอด 25 ปี (ถูกคิดขึ้นในปี 1994)

ล่าสุดกูเกิลประกาศผลักดัน REP ให้เป็นมาตรฐานอินเทอร์เน็ตภายใต้การดูแลของ Internet Engineering Task Force (IETF) ซึ่งเป็นผู้ดูแลมาตรฐานหลายๆ ตัวที่ใช้กันในปัจจุบัน เช่น OAuth สถานะตอนนี้คือกูเกิลส่งร่างมาตรฐานไปยัง IETF แล้ว และอยู่ในช่วงรับฟังความคิดเห็นตามกระบวนการออกมาตรฐานปกติ

หนึ่งในวิธีการผลักดัน REP เป็นมาตรฐานเน็ต คือการเปิดซอร์สโค้ดของตัวอ่านไฟล์ robots.txt ที่ Google Search ใช้มาตั้งแต่ช่วงก่อตั้งบริษัท เพื่อให้นักพัฒนาภายนอกสามารถเข้ามาดูได้ว่า กูเกิลเขียนซอฟต์แวร์เพื่อจัดการกับไฟล์ robots.txt ได้อย่างไร ไลบรารีตัวนี้มีชื่อเรียกว่า Google Robots.txt Parser and Matcher Library เขียนด้วยภาษา C++ และตอนนี้เปิดโค้ดแล้วบน GitHub

ที่มา - Google , Google

No Description