电话:029-8161 4085
手机:189 9121 9418
搜索引擎蜘蛛是什么?
它是一个沿着网站的链接不断搜索,并下载到本地的机器人程序。也有的称呼为网络爬虫。
如何发现蜘蛛?
我们可以通过IIS日志中的日志代码来找到蜘蛛的踪迹,通过分析我们可以得到蜘蛛爬取了我们的哪些页面,是否爬取成
功还是404错误,通过IIS蜘蛛访问数据的分析我们可以得到许多我们需要了解的数据。
都有哪些蜘蛛,他们的代码是什么?
下面我为大家列举下主流搜索引擎的蜘蛛标签。
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:bingbot
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
有道蜘蛛:YodaoBot和OutfoxBot
另外需要注意的一点是有些朋友常常在IIS日志中发现一个非常古怪的蜘蛛crawler4j,比如下面这段IIS日志
2011-01-24 22:40:53 W3SVC384066274 222.73.45.58 GET /index.htm - 80 - 123.125.159.5 crawler4j
+(http://code.google.com/p/crawler4j/) 200 0 0
需要特别声明下,crawler4j并不是搜索引擎蜘蛛,Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接
口。可以利用它来构建一个多线程的Web爬虫。我们无需理会它即可。