很多seo优化人员虽然学过robots怎么写,但是大多是学了表面,真正写的时候可能会成为致命陷阱,robots是蜘蛛进入网站后抓取的重要文件之一,很多做优化的忽略robots的重要性,而且很多人只知道简单的allow和disallow两个命令,但是深入研究还有更多,看了下面这篇荣帅seo优化分享的关于robots的知识,你将无惧任何robots写法。

robots高级写法

robots最全高级写法

 
我们都知道蜘蛛来到网站之后第一个看的就是robots文件,它是搜索引擎的协定,告诉蜘蛛哪些目录能抓,哪些目录不能抓,哪些目录下的哪些文件可以抓,这些robots文件都可以实现。网站优化时候如果忽略了robots文件的重要性,可能会一不小心被掉入优化陷阱中,下面重庆网站优化为你道来:
 
一、基础的robots协定规则有哪些?
robots规则说明:
*代表所有的意思
User-agent
爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:*  如果单独适用于百度的话User-agent:Baiduspider
 
二、搜索引擎蜘蛛对应在robots里面的英文名字
百度Baiduspider
谷歌Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
雅虎蜘蛛:Yahoo!
有道蜘蛛:YoudaoBot
搜狗蜘蛛:Sogou News Spider
MSN蜘蛛:msnbot/msnbot-media
必应蜘蛛:bingbot/compatible
一搜蜘蛛:YisouSpider
Alexa蜘蛛:ia_archiver
宜sou蜘蛛:EasouSpider
即刻蜘蛛:JikeSpider
一淘网蜘蛛:EtaoSpider)
 
三、灵活使用robots高级命令

Disallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系或是目录结构
Disallow:/(代表着禁止抓取网站所有内容)
Disallow:/sb(禁止抓取sb及其层次下的内容)
Disallow:/sb/(禁止抓取sb层次下的内容,但是允许抓sb目录),当然也可以用allow来写
Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT)
Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是)
Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
Disallow:/abc/*?*(只屏蔽abc层次下的动态地址)
Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址
14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)
Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)


 
四、Allow使用陷阱

Allow
Allow代表允许访问抓取的意思
Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:
Allow:/abc
disallow:/*?*


 
 五、别忘了加上地图指引
sitemap
这个只用于告诉蜘蛛网站地图在哪
sitemap:网址/sitemap.xml
 
六、控制robots不让显示快照
在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)
在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“360Spider” content=“noarchive”(禁止360产生快照,name后面的换成蜘蛛名字即可)
 
七、在robots里面控制蜘蛛抓取频率
Crawl-delay
控制抓取频次,一般有些搜索蜘蛛频繁抓取网站,会对服务器造成很大的负担,这个就是用来控制抓取频次的
User-agent:360Spider
Crawl-delay:60
这句是说,360你抓的太频繁,你抓过之后60秒之后才能下一次抓取

点赞(0) 打赏

Comment list 共有 0 条评论

暂无评论
立即
投稿

个人微信号

微信扫一扫联系我

发表
评论
返回
顶部