首页 SEO实战正文

搜索引擎蜘蛛是怎么工作的?

  大部分站长都知道,搜索引擎给你网站的收录都是由蜘蛛先先爬取,然后进行网页的文字处理,最后根据网页质量在给予网站排名,今天就校园SEO就跟大家说说,搜索引擎蜘蛛是什么工作的。

   搜索引擎蜘蛛也被称为爬虫,或者Web Spider,每个搜索引擎的爬虫UA都是不一样的,比如:百度蜘蛛是BaiduSpider,百度抓取图片是Baiduspider-image,那么百度PC网页的UA就是:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)。360Spider是360搜索的蜘蛛

UA就是:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)。我们可以根据网页日志中蜘蛛爬取的次数来判断,蜘蛛对我们网站的内容哪些是喜欢的,哪些是不喜欢的。

 百度蜘蛛是怎么爬取的

   当蜘蛛爬取到我们网页的时候,会先读取网页的状态返回码,比如200,301,404等,先判断网页是否存在或失效。如果网页存在有效,蜘蛛便会爬取页面中的文字,代码,链接等等,当一个页面爬取成功后,蜘蛛可能会沿着该页面的链接继续往下爬,这也是为什么我们要做好URL设置的原因。蜘蛛把页面爬取完成后,会先存入数据库,匹配是否为抄袭采集,再决定是否放出该文章,(也就是我们所说的收录)放出文章后,蜘蛛还会根据该文章的点击率,跳出率,停留来判断用户是否喜欢这篇文章,如果用户跳出率特别高,则会排名往后调整,反之就是往前调整。

  蜘蛛抓取页面的频次也有几方面的因素,首先就是我们网页的权重和质量,如果你的网站经常不更新,或者更新的内容全是采集的垃圾内容,并非原创,那么久而久之,蜘蛛就会降低你网站的爬取次数。还有就是导入链接,也就前面说过的,我们网页架构要合理,URL要简洁,要有面包屑导航,能够让蜘蛛爬取完一个页面,可以继续爬取。

  想要吸引蜘蛛高频次的来爬取我们的页面,就要坚持更新网站的内容,如果不会写原创,可以进行伪原创,但切记不要进行采集内容。还有就是做好友情链接,外链和sitemap文件。当页面更新后我们也要主动去站长平台更新提交我们新的网页,也可以使用抓取诊断等,主动让蜘蛛过来爬取。


评论

 
QQ在线咨询
售前咨询电话
180-5710-3885