详解Windows服务器蜘蛛日志

2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

分析下 200 0 0组成部分 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)

　sc-status(协议状态)： 200 连接成功

　sc-substatus(协议子状态) ：0 成功

　sc-win32-status(Win32状态码)：0 代表抓取成功并带回数据库； 64 指定的网络名不再可用

1: 在这个访问记录里面121.187.5.143是你服务器的IP地址，220.181.7.74 是bd蜘蛛的IP，/category-8-b0-min1100-max2200.html 为蜘蛛访问你的页面　80是端口　GET是打开方式　W3SVC1是记录的文件夹，这里说明，bd蜘蛛已经访问了你的category-8-b0-min1100-max2200.html 这个页面，那么最重要的是最后面的这个参数200 0 0。

2、200 0 0 成功访问该页面，0代表抓取成功并带回数据库。这个时候你就放心了，这个页面已经被bd收录，但是还没有释放出来，bd更新时就可能释放出来。

3：200 0 64 网络上流传着这么三种解释第一：64为K站的前兆。第二64的出现只是64位操作系统。第三：网络不可达，由于某种原因无法完全打开页面，或者网络不稳定这些原因，导致蜘蛛无法带回页面或者说不抓取该页面，所以200 0 64的解释也应该为：访问了该页面，但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。

4：304 0 0这个返回码代表蜘蛛访问的页面没有更新，和他之前来的时候是一样的，所以看到这个不要担心，蜘蛛来过，只不过你没有更新，所以他也不愿意带走这个页面。

5：404 0 0这个是代表404页面，但是有个很严重的问题，这个返回码告诉我们，蜘蛛来到了404页面并把他带走了，崩溃～～～～，塞是这样的话基本上你要倒霉了，塞你有太多的404，那么蜘蛛就会不断是抓取，不断的带走，这样会造成无数的重复页面，最终导致K站或者降权，正确的返回骂是404 0 64　这就代表蜘蛛没有抓取你这个页面。

6：500错误500错误是服务器内部错误，是由程序的错误造成的，我不懂程序，但是500错误是会给你减分的，这点基本的逻辑都可以想的到，塞发现500错误，马上查看是哪个页面的，然后去修正以下错误吧！

7：302塞在日志中发现302的返回码也是需要注意的，302为临时重定向，塞你是长期的将这个页面重定向到另一个页面，麻烦你使用301永久重定向，塞是302的话bd蜘蛛下次来还会访问这个页面，这样又会造成复制大量页面的问题，结果肯定是K，所以，抽空检查以下。

百度蜘蛛爬行检测代码诠释

作为一名站长,要有长期观看自己IIS日志的习惯,研究se爬行规律对于网站优化意义重大，特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码,也算是海军对爬行代码的一次笔记.

代表的具体含义：

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理，但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求，但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应，且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题，或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在(永久);

415 介质类型不受支持 — 服务器拒绝服务请求，因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况，服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护，服务器无法处理请求。

根据查看IIS日志,得到百度蜘蛛反馈的情况来找回自己网站存在的问题,并加以改正,这样蜘蛛才会恋上你的温床的.

举例：正文:iis默认的日志文件在C:\WINDOWS\system32\LogFiles中，下面是Seoer惜缘的服务器日志，通过查看，就可以了解搜索引擎蜘蛛爬行经过,如：

　　 2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64

　　 1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,

　　 2、61.135.168.39 Baiduspider代表，百度搜索引擎蜘蛛的ip是61.135.168.39

　　 3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页

　　 4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间

　　 5、W3SVC962713505代表网站日志所在的文件夹

　　 6、 http://www.baidu.com/search/spider.htm baiduspider常见问题解答网页

　　 7、代码中的200就代表搜索引擎蜘蛛爬行后返回HTTP状态代码,代码中可以了解蜘蛛爬行后的反映，

IIS日志百度蜘蛛注释200 0 64到底是啥?

很多做SEO的朋友都会说是,进入审核.或者百度沙盒或者百度即将被K的预兆,当然.SEO海军也是这么认为的.今天在一个群里.和朋友探讨到这个问题.

很多朋友和做SEO的都是海军这么认为的.另外互联网也有其他的一些关于200 0 64 注释的看法如下

打开一个IIS的日志,我们在最上边大约第三行能够看到一个表头,像这样:

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status

这是日志每行中每个字段的名称,我们看到的"200 0 64"是最后3个,那就是

sc-status sc-substatus sc-win32-status 这三个了,来看看这三个是什么东西:

sc-status:

HTTP协议的状态.HTTP协议的状态代码为200,这个可能大家不熟悉,但是,HTTP404找不到文件,HTTP500内部服务器错误,这两个状态代码大家应该很熟悉了吧? 不错,这个200,其实就是这个的一种,HTTP200就是文件被正常的访问了,只有这个数字是200以外的数字,才说明访问出现了错误(比如上面说的404文件找不到等).

sc-substatus:

HTTP子协议的状态.一般来说网站都是不使用子协议的,所以这个代码为0就是很正常的,我们完全可以不用管它.

sc-win32-status:

Win32状态.这个就是被很多人解释成说是是否被百度正常抓取的代码.除了这个解释之外,这个代码还有N多种解释,有的说是"不可用,打不开",有的说是"客户端传送到服务端的字节大小",真可谓天花乱坠.其实我们稍微懂点脑子,从字面意思就能够看懂.这只是表示客户端是否为32位系统的代码.如果被32位的系统访问,那么这里记录的就是0,如果被64位系统访问,那么这里记录的就是64……

总结上面的,再综合解释一下"200 0 64"和"200 0 0":

200 0 64:

文件被64位系统的访客或者蜘蛛正常访问或抓取.

200 0 0:

文件被32位系统的访客或者蜘蛛正常访问或抓取.

详解Windows服务器蜘蛛日志

热门文章

最新文章

相关栏目