日志的用途:
1.查看搜索引擎什么时候来过我们网站,是哪个搜索引擎,谷歌还是百度还是其他。
2.查看网站状态码,发现网站的情况
3.查看是否被竞争对手采集或是攻击等
总之,服务器日志是一个SEO发展到一定的时候必须学习的重要知识。
下面重庆网站优化荣帅SEO为大家简单的来看看搜索引擎的工作的时候蜘蛛在服务器上的爬行情况。
一、下载日志的方法
不管是IIS日志(asp类型的网站),还是apche日志(php+mysql,或是jsp+mysql),一般的网站就这三种类型,两种类型的服务器。
新手不知道服务器日志在哪点去下载,这里重庆SEO荣帅给大家做个简单的说明,日志下载要到你的服务器商家里面去下载,然后第二天再你的ftp上传工具上能够看到,在ftp根目录一般有三个中的其中一个里面。
二、日志内部各种蜘蛛的名字
日志的用途就是能够观察搜索引擎的蜘蛛来我们网站的爬取情况,可以更近距离的分析和接触蜘蛛。爬取次数,爬取时间点,爬取高峰期,爬取反应出来的HTTP状态码,为我们带来清晰的分析便利。
二、各大搜索引擎的蜘蛛名称
百度(Baidu)爬虫名称(Baiduspider)
谷歌(Google)爬虫名称(Googlebot)
雅虎(Yahoo)爬虫名称(Yahoo Slurp)
有道(Yodao)蜘蛛名称(YodaoBot)
搜狗(sogou)蜘蛛名称(sogou spider)
MSN的蜘蛛名称:msnbot
三、基本状态码
200:请求已经完成,蜘蛛访问页面正常
301:已经移动,永久重定向
302:临时重定向
304:蜘蛛爬取后发现,页面没有修改
305:使用代理
400:请求错误
404:找不到页面
四、蜘蛛的爬行原理分析
蜘蛛先去抓取百度白名单的网站或者一些信任度非常高的站点和页面(例如:一些高权重网站和网站的首页),在抓取这些网页的内容时发现一些指向另外一些一些页面的链接。蜘蛛会把这些链接保存在自己的数据库里面,然后再根据抓取顺序依次来抓取这些网页。
五、蜘蛛抓取网页的规则
对于蜘蛛说网页权重越高、信用度越高抓取越频繁,例如网站的首页和内页。蜘蛛先抓取网站的首页,因为首页权重更高,并且大部分的链接都是指向首页。然后通过首页抓取网站的内页,并不是所有内页蜘蛛都会去抓取。
搜索引擎认为对于一般的中小型站点,3层足够承受所有的内容了,所以蜘蛛经常抓取的内容是前三层,而超过三层的内容蜘蛛认为那些内容并不重要,所以不经常爬取。
六、如何看蜘蛛的抓取?
通过服务器日志可以看蜘蛛爬取了哪些内容,服务器日志有百度蜘蛛、谷歌蜘蛛等。从日志里卖弄分析得出蜘蛛的类型、抓取时间、抓取的页面、抓取内容的大小以及返回的页面代码,200代表抓取顺利。
发表评论 取消回复