เว็บครอว์เลอร์ (อังกฤษ: Web Crawler) เป็นบอตอินเทอร์เน็ตที่ทำงานท่องไปบนเวิลด์ไวด์เว็บ โดยปกติแล้วมีจุดประสงค์เพื่อทำการจัดทำดัชนีเว็บ

เว็บครอว์เลอร์อาจเรียกว่าเว็บสไปเดอร์ (web spider)[1] มด (ant) ตัวจัดทำดัชนีอัตโนมัติ (automatic indexer)[2] ในโปรแกรม FOAF มีชื่อเรียกว่า Web scutter[3]

เสิร์ชเอนจินและบางเว็บไซต์ใช้เว็บครอว์เลอร์ในการปรับปรุงเนื้อหาเว็บหรือดัชนีของเนื้อหาเว็บอื่น ๆ ตัวเว็บครอว์เลอร์นั้นสามารถคัดลอกหน้าที่มันผ่านเข้าไปประมวลผล เพื่อที่การค้นหาเว็บด้วยเสิร์ชเอนจินหลังจากนั้นจะสามารถใช้ดัชนีเข้ามาช่วยทำให้ได้ผลลัพธ์เร็วขึ้นเป็นอย่างมาก

นโยบายความสุภาพ แก้

ครอเวอร์สามารถดึงข้อมูลได้รวดเร็วกว่ามนุษย์ ดังนั้นมันจึงสามารถสร้างผลเสียต่อประสิทธิภาพของเว็บไซต์ ไม่จำเป็นต้องบอกว่าถ้าครอเลอร์ตัวนึงทำการร้องขอข้อมูลจำนวนมากต่อวินาที หรือดาวโหลดไฟล์ขนาดใหญ่ จะเป็นการยากลำบากที่เซอเวอร์จะแบกรับคำขอจำนวนมากได้

การใช้ครอว์เลอร์มีประโยชน์ต่องานหลายแขนง แต่มีราคาต่อสังคมทั่วไป ต้นทุนของครอว์เลอร์มีทั้ง

- ทรัพยากรเน็ตเวิร์ค ครอว์เลอร์ต้องการแบนวิธจำนวนมาก และทำงานแบบคู่ขนาดในระยะเวลาที่นาน

- เซอร์เวอร์แบกรับภาระที่หนักเกินไป โดยเฉพาะเมื่อความถี่ในการเข้าถึงสูง

- ครอเลอร์ที่ถูกเขียนมาไม่ดี ซึ่งสามารถทำให้เซอร์เวอร์พหรือเราเตอร์หยุดทำงาน หรือดาวโหลดหน้าที่พวกเขาไม่สามารถรองรับ

- ครอเลอร์ส่วนตัว ที่ถ้าถูกปล่อยโดยผู้ใช้จำนวนมาก สามารถรบกวนระบบเน็ตเวิร์คหรือเว็บเซอร์เวอร์

อ้างอิง แก้

  1. Spetka, Scott. "The TkWWW Robot: Beyond Browsing". NCSA. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2004-09-03. สืบค้นเมื่อ 21 November 2010.
  2. Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the web". ACM Computing Surveys. ACM Press. 32 (2): 144–173. doi:10.1145/358923.358934.{{cite journal}}: CS1 maint: multiple names: authors list (ลิงก์)
  3. See definition of scutter on FOAF Project's wiki เก็บถาวร 2009-12-13 ที่ เวย์แบ็กแมชชีน