当前位置:首页 > 新闻中心 > 解决方案
如何提高蜘蛛对动态网站的抓取效率?责任编辑 :李飞    文章来源 :星翼创想(www.iswweb.com)    发布时间 :2015-10-16    阅读次数:3701

许多在给网站做seo的站长都会遇到这样一个问题,就是动态的网站似乎不太受搜索引擎蜘蛛的欢迎,因此许多站长都会选择做成静态生成的网站。但静态生成的网站在日常的维护和更新上,总是多多少少有点不方便。因此,究竟有没有什么方法,能提高搜索引擎蜘蛛对动态网站的抓取频率呢?答案是有的,那就是好好利用robots文件!今天就跟随深圳市星翼创想网络科技有限公司一起来阅读以下这篇文章,学习一下如何利用robots文件来提高蜘蛛对动态网站的抓取频率吧!相信看完之后,你会忍不住立即就动手操作的!


动态网站并不值得担心,搜索引擎可以正常抓取动态链接,但利用robots文件可以轻松提高动态网站的抓取效率。我们都知道,robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容。

百度官方是推荐所有的网站都使用robots文件,以便更好地利用蜘蛛的抓取。其实robots不仅仅是告诉搜索引擎哪些不能抓取,更是网站优化的重要工具之一。

robots文件实际上就是一个txt文件。其基本的写法如下:

 

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

 

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 

 

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 

 

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 

 

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 

Disallow: /*?* 禁止访问网站中所有的动态页面 

 

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 

 

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 

 

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 

 

Allow: /tmp 这里定义是允许爬寻tmp的整个目录 

 

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 

 

Allow: .gif$ 允许抓取网页和gif格式图片


在网站优化方面,利用robots文件告诉搜索引擎哪些是重要的内容,不重要的内容均推荐用robots文件来禁止抓取。不重要的内容的典型代表:网站的搜索结果页面。

对于静态网站来说,我们可以利用Disallow: /*?*来禁止动态页面抓取。但对于动态网站来说,就不能简单地这样做了。不过对于动态网站的站长来说,也无需过于担心,搜索引擎现在可以正常地抓取动态页面。那么在写的时候,就要注意了,我们可以具体到搜索文件的名称来写。比如你的站是search.asp?后面一大串,那么可以这样写:

Disallow: /search.asp?*

这样就可以屏蔽搜索结果页面了,写好了可以到百度站长平台检测robots一下,看看有没有错误!可以输入网址检测一下,是不是正常生效了。

在这里建议动态网站的站长,一定要用robots文件屏蔽不重要的内容动态链接,提高蜘蛛的抓取效率



文章转载请保留网址:http://www.iswweb.com/news/solutions/1516.html