3.12.7 抓取错误及统计

抓取错误部分列出各种抓取错误,有网站层级的,如DNS错误、服务器问题、robots文件禁止(这不一定是错误,只是提醒站长),也有页面层级的,如服务器错误代码、软404、404错误(找不到的页面),如图3-47所示。

图3-47 Google站长工具显示的抓取错误

其中404错误对检查网站上是否存在错误链接很有用。对每个404错误,站长工具都列出了连到这个网址的链接,如图3-48所示。

图3-48 指向不存在页面的链接

如果连到不存在页面的链接是网站内部发出的,立即改正这些页面上的链接地址。如果链接向不存在页面的是其他网站,站长可以尝试联系对方更改错误链接到正确位置。

站长工具也列出抓取统计信息。

如图3-49所示,我的博客每天抓取页面数平均为几百页,对于一个只有几百篇帖子的博客来说很正常。如果是几十万上百万页面的大中型网站,平均每天抓取几百个页面就太糟糕了,照这个速度,要把整个网站更新一遍,恐怕得好几年时间。大中型网站每天抓取几万页面是最低标准。如果抓取频率太低,SEO人员必须在外部链接建设及网站结构上多下工夫。

图3-49 Google站长工具显示的抓取统计信息