Google เปิดซอร์ส ระบบอ่านข้อมูล robots.txt parser

Google เปิดซอร์ส ระบบอ่านข้อมูล robots.txt parser ให้เป็นสาธารณะ วันนี้โดยได้มีการเปิดซอร์สทั้งหมดของไฟล์ที่ใช้รันในระบบ สำหรับนักพัฒนาที่สนใจการทำงานของระบบดังกล่าว ที่เขียนด้วยภาษา C++ library ที่ได้มีการพัฒนาตั้งแต่ยุค 90 เพื่อให้ผู้ที่ต้องการศึกษาการทำงานของระบบตรวจสอบไฟล์ robots.txt ซึ่งเป็นไฟล์ที่เว็บไซต์ทั่วๆไปจำเป็นต้องมี เพื่อที่จะบอกให้ระบบเว็บ Crawler นั้นสามารถทำงานในการเข้ามาเก็บข้อมูลต่างๆของแต่ละเว็บไซต์ได้ง่ายขึ้น โดยเราสามารถกำหนดค่าต่างๆภายในไฟล์ robots.txt เพื่อที่จะบอกกับตัว Web Crawler ว่าส่วนไหนของเว็บไซต์ที่เราอนุญาตให้เก็บข้อมูลได้ ส่วนไหนหวงห้าม ไม่ให้ไต่เข้าไปเก็บข้อมูล เพราะอาจจะเป็นส่วนที่เก็บข้อมูล หรือไฟล์สำคัญต่างๆเอาไว้ หรือเป็นพื้นที่ที่มีเนื้อหาสำหรับสมาชิก ที่คุณไม่ต้องการให้ปรากฏในผลการค้นหาของกูเกิล เพราะถ้าหากเราไม่ทำการจำกัดการ เก็บข้อมูลของบอทกูเกิล ก็จะไต่เข้าไปเก็บข้อมูลในส่วนนั้นและเผยแพร่ข้อมูลดังกล่าวให้สามารถค้นพบได้ บนผลการค้นหาของกูเกิล ซึ่งไม่ดีแน่



นอกจากซอร์สโค้ดของระบบ Robots Exclusion Protocol (REP) แล้วยังมีตัวอย่างการใช้งานของโปรแกรมดังกล่าวมาด้วย 2-3 ตัวอย่าง ซึ่งจะทำให้คุณสามารถเข้าในถึงหลักการทำงานของระบบได้ดีขึ้น

โดยกูเกิลพยายามที่จะผลักดันมาตรฐานนี้ให้เป็นสิ่งที่ทุกเว็บไซต์ต้องมีมาหลายปีแล้ว ตั้งแต่เริ่มทำเว็บเสิร์จแต่ถึงตอนนี้ก็ยังไม่ประสบผลสำเร็จจนถึงขั้นที่จะตั้งให้เป็นมาตรฐานทั่วโลกได้ ถ้าคุณสนใจละก็ ซอร์ส โค้ดนี้สามารถดาวน์โหลดได้ที่เว็บไซต์  GitHub 

สำหรับเจ้า  robots.txt เกี่ยวข้องอย่างไรเกี่ยวกับ SEO หรือ Search Engine Optimization ไฟล์ robots.txt นี้สำคัญมากเพราะว่าเป็นเหมือนใบบอกทางให้กับบอท หรือระบบเก็บข้อมูลเว็บไซต์ของเราให้กูเกิลได้ทราบ โดยไฟล์ robots.txt จะต้องถูกวางไว้ใน Root Directory ของเว็บไซต์เพื่อให้สามารถเข้าถึงได้ง่ายที่สุด เช่น Example.com/robots.txt เพราะว่าก่อนที่บอทจะเข้าไปเก็บข้อมูลของเว็บไซต์นั้นต้องอ่านป้ายผ่านทางก่อนนั่นเอง บางทีเราทำเว็บไซต์ไปตั้งนานแต่บอท Google ไม่มีการมาเก็บข้อมูลหน้าเว็บไซต์ของเราเลยนั่นอาจจะเกิดจากการที่คุณได้เขียนห้ามกูเกิลบอทเข้าไปเก็บข้อมูลเว็บไซต์ของคุณผ่านทางไฟล์ robots.txt โดนที่คุณไม่รู้ตัวก็ได้ ลองไปเช็คไฟล์ดู หรือใช้ เครื่องมือทดสอบ robots.txt ของ Google ที่มีให้ใช้งานใน Google Search Console https://www.google.com/webmasters/tools/robots-testing-tool  โดยคุณสามารถทำได้ตามนี้  https://support.google.com/webmasters/answer/6062598?hl=en

ในกรณีที่คุณต้องการเปิดให้ Google Bot เข้าไปเก็บข้อมูลได้ทุกหน้าของเว็บไซต์ของคุณ คุณสามารุใช้บริการเว็บที่ใช้ในการเขียนไฟล์ robots.txt ซึ่งสามารถค้นหาได้ในก็เกิลเองด้วยคำค้นว่า robots.txt Generator ซึ่งจะมีช่องให้คุณกรอกข้อมูลว่า ให้เก็บข้อมูลอะไรได้บ้าง อนุญาตให้บอทตัวไหนเข้ามาเก็บได้บ้าง เป็นต้น



No comments:

Post a Comment