Tags:
Node Thumbnail

คนสายทำเว็บคงรู้จักไฟล์ robots.txt ที่ใช้บอกบ็อตของเครื่องมือค้นหาว่า เพจไหนบ้างที่ไม่ต้องอ่านข้อมูลไปทำดัชนีค้นหา

ฟอร์แมตของไฟล์ robots.txt เรียกว่า Robots Exclusion Protocol (REP) ใช้งานกันแพร่หลายมายาวนาน (de facto) แต่สถานะของมันไม่เคยถูกยกระดับขึ้นเป็นมาตรฐานอินเทอร์เน็ตที่มีองค์กรกลางรับรองมาตลอด 25 ปี (ถูกคิดขึ้นในปี 1994)

ล่าสุดกูเกิลประกาศผลักดัน REP ให้เป็นมาตรฐานอินเทอร์เน็ตภายใต้การดูแลของ Internet Engineering Task Force (IETF) ซึ่งเป็นผู้ดูแลมาตรฐานหลายๆ ตัวที่ใช้กันในปัจจุบัน เช่น OAuth สถานะตอนนี้คือกูเกิลส่งร่างมาตรฐานไปยัง IETF แล้ว และอยู่ในช่วงรับฟังความคิดเห็นตามกระบวนการออกมาตรฐานปกติ

หนึ่งในวิธีการผลักดัน REP เป็นมาตรฐานเน็ต คือการเปิดซอร์สโค้ดของตัวอ่านไฟล์ robots.txt ที่ Google Search ใช้มาตั้งแต่ช่วงก่อตั้งบริษัท เพื่อให้นักพัฒนาภายนอกสามารถเข้ามาดูได้ว่า กูเกิลเขียนซอฟต์แวร์เพื่อจัดการกับไฟล์ robots.txt ได้อย่างไร ไลบรารีตัวนี้มีชื่อเรียกว่า Google Robots.txt Parser and Matcher Library เขียนด้วยภาษา C++ และตอนนี้เปิดโค้ดแล้วบน GitHub

ที่มา - Google , Google

No Description

Get latest news from Blognone

Comments

By: whitebigbird
Contributor
on 2 July 2019 - 10:01 #1118156
whitebigbird's picture

C++ มันเอาไป integrate เข้ากับ software ตัวไหนเหรอครับ? Apache HTTPD กับ NGINX รึเปล่าครับ?

By: iamfalan
iPhone Android Windows
on 2 July 2019 - 11:39 #1118183 Reply to:1118156

ตัว c++ น่าจะรันแบบ standalone ไป scrape มาจาก Internet มากกว่าครับอารมณ์แบบ curl http://xxx.xxx อะไรแบบนั้นครับ