马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 抓取网站的搜索引擎蜘蛛是不是越多越好

抓取网站的搜索引擎蜘蛛是不是越多越好

时间:2014-08-06   文章来源:马海祥博客   访问次数:

做过SEO或站长的都应该知道,网站要想做排名就必须使网站文章先收录,而网站内容收录由跟搜索引擎蜘蛛的来访抓取有很大的关系。

搜索引擎蜘蛛,又被称为网页爬虫,网络机器人,在FOAF社区中间,也经常被称为网页追逐者,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外它还有一些不常使用的名字,如:蚂蚁,自动索引,模拟程序或者蠕虫。那么,对于一个网站来说,是不是来网站爬行的搜索引擎蜘蛛越多越好呢?

一、搜索引擎蜘蛛抓取网页的原理

关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。

抓取网站的搜索引擎蜘蛛是不是越多越好-马海祥博客

可以说,互联网就是由一个个链接构成的,蜘蛛程序顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行(具体可查看马海祥博客的《搜索引擎工作的基础流程与原理》相关介绍)。

当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的向服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引。

所以,从SEO的角度来说,提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。

当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体(文字、图片或其他信息),发现链接载体并存储链接数据。

所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率(在以往的网站分析中经常提到),以保证我们网页在搜索引擎数据库中的索引是最新的。

比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。

二、搜索引擎蜘蛛是不是越多越好?

不论哪个搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据,只代表它“到此一游”留下痕迹而已,据马海祥了解有些搜索引擎只是过来找下它想要的资源,甚至还有很多是开发人员的蜘蛛测试。

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。

对于那些想提高网站有效利用率的网站,虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。

可以肯定的说,当今互联网的网络流量有很大一部分的流量是爬虫带来的,因此反搜索引擎爬虫是一个值得SEO长期探索和解决的问题。

所以,从SEO的角度来说,搜索引擎蜘蛛来网站访问并非越多越好,并且还要合理的屏蔽无效的搜索引擎蜘蛛的抓取。

三、过多的搜索引擎爬虫对网站的影响

既然对于网站来说,搜索引擎蜘蛛并非是越多越好,那么,这具体是因为什么原因导致的呢?

1、浪费带宽资源

如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。

2、过于频繁的抓取会导致服务器报错

如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500 、504等服务器内部错误了(具体可查看马海祥博客的《解读IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码》相关介绍),蜘蛛爬虫还在不停使劲抓取。

3、与网站主题不相关的搜索引擎爬虫消耗资源

比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。

被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛,据马海祥对一些电商网站的测试发现:一淘网蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛(Baiduspider)”“360蜘蛛(360Spider)”“SOSO蜘蛛(Sosospider)”等主流蜘蛛爬虫多几倍,并且是远远的多。

重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

4、无效的测试抓取

一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。

5、robots.txt文件也并非是万能

肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。

正规搜索引擎会遵守规则,不过不会及时生效,但是据我对马海祥博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!

四、如何解决无效搜索引擎蜘蛛取的问题

各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,马海祥就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:

1、只运行常用的搜索引擎蜘蛛抓取

依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。

2、通过服务器防火墙来屏蔽ip

从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。

3、WWW服务器层面做限制

例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

4、最后robots.txt文件做限制

搜索引擎国际规则还是要遵循规则的。

五、各大搜索引擎蜘蛛的名称

抓取网站的搜索引擎蜘蛛是不是越多越好-马海祥博客

为了使大家找到适合自己网站的搜索引擎蜘蛛,马海祥也特意整理了一份最新的各大搜索引擎蜘蛛名称(大家要注意下写法的不同点,特别是大小写):

1、百度蜘蛛:Baiduspider

网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,那是旧黄历了。百度蜘蛛最新名称为Baiduspider,我通过对马海祥博客日志的检查还发现了Baiduspider-image这个百度旗下蜘蛛,是抓取图片的蜘蛛。

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

2、谷歌蜘蛛:Googlebot

这个争议较少,但也有说是GoogleBot的,谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”,不过,我还在马海祥博客的日志中发现了Googlebot-Mobile,看名字是抓取wap内容的。

3、360蜘蛛:360Spider

它是一个很“勤奋抓爬”的蜘蛛。

4、SOSO蜘蛛:Sosospider

5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

6、有道蜘蛛:YoudaoBot,YodaoBot

7、搜狗蜘蛛:Sogou News Spider

另外,马海祥还发现搜狗蜘蛛还包括以下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。

8、MSN蜘蛛:msnbot,msnbot-media

9、必应蜘蛛:bingbot,线上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜搜蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘网蜘蛛:EtaoSpider

根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取,如果你的空间流量还足够使用的话,那就不用做屏蔽了,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。

至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者应该是最清楚的。

另外,马海祥还发现了YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外的,对中文网站用处很小。

其实对于我们站长来说,有效并且常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了,其它的爬虫统统通过通配符(*)禁止掉,或单独屏蔽某些蜘蛛(具体方式我也在马海祥博客的《robots协议文件的写法及语法属性解释》一文中跟大家做过详细的介绍,有兴趣的朋友可以看下)。

马海祥博客点评:

对于搜索引擎来说,使用搜索引擎蜘蛛不断的收集最新数据,主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/727.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 搜索引擎   搜索引擎蜘蛛  

上一篇:详解Google Analytics计算流量及统计流量的原理
下一篇:如何通过IIS日志分析网站的隐形信息

您可能还会对以下这些文章感兴趣!

  • 超链接超文本文档检索系统原理和分析方法

    超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎,它的索引器遍历超文本数据库并寻找包括超链指向的文档地址……【查看全文

    阅读:745关键词: 超链接   超文本   检索原理   日期:2017-02-07
  • 史上最全的网站SEO策略方案

    在搜索引擎优化中,一个网站的SEO策略能最终影响到网站未来的优化效果。SEO策略不管对中小网站还是大型网站都是重要的,尤其是对于大型网站,制定一个好的SEO策略就显得尤为重要了。一般的企业网站优化需要考虑的就是排名、长尾、转化率。可是对于大型门户站的seo优化则……【查看全文

    阅读:11545关键词: 网站SEO   SEO策略   SEO方案   SEO   网站SEO策略   SEO策略方案   日期:2013-12-17
  • 网站内链是什么?

    内链考验的是网站细节,一个链接、一段代码在SEO优化中可能起不到任何效果,但到100个,200个精准内链的时候,情况就大不同了,你可以通过修改网站的细节,避免网站造成潜在的权重损失。做过SEO的朋友都应该听过这样一句话:“大站做内链,小站做外链”,我们可以理解为……【查看全文

    阅读:2170关键词: 网站内链   内链是什么   什么是内链   内链   日期:2014-07-07
  • 什么是长尾关键词?

    网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。搜索量非常少,并且不稳定。长尾关键词带来的客户,转化为网站产品客户的概率比目标……【查看全文

    阅读:8048关键词: 长尾关键词   关键词   长尾关键词是   关键词是什么   日期:2013-10-12
  • 影响谷歌搜索排名算法的5大趋势

    从2010年开始谷歌的算法调整就非常的频繁,熊猫、企鹅、蜂鸟算法等都是典型的例子,而这些算法都主要是打击那些低质量链接和内容的网站,打击黑帽SEO对互联网带来的不良影响。而那些给用户提供高质量内容的网站将会获得更好的排名,得到更多的访客。这就意味着你的网站需要给……【查看全文

    阅读:526关键词: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 如何通过IIS日志分析网站的隐形信息

    通过IIS日记的记录我们可以更加清楚的分析出搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何?因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行……【查看全文

    阅读:1822关键词: iss日志   iss分析   网站分析   iss   网站信息   日期:2014-08-09
  • 详解搜索引擎的高级搜索语法指令

    作为一名SEOer,我们不但要学SEO的技巧,还要懂得使用一些搜引擎的搜索指令,这些搜索指令普通的用户几乎用不到,但对SEO用来研究竞争对手和查找外部的资源却是非常的有用。一名专业的SEO人员除了在搜索引擎搜索普通的关键词外,还需要使用一些特殊的高级搜索指令来查询……【查看全文

    阅读:3161关键词: 搜索引擎   高级搜索   搜索语法   搜索指令   日期:2014-11-07
  • 网站运营的八大SEO策略

    一个大型网站的SEO成功,绝不仅仅是依靠单一SEO技术的成功,最重要的还是靠SEO思维策略,并且把这些SEO思维策略融入到网站运营中,才能使其SEO达到最佳的效果!总的来说,SEO策略就通过实践、总结、思考和创新来创造或者组合各种资源来达放大突破SEO效果,区别于SEO技术……【查看全文

    阅读:1666关键词: 网站运营   SEO策略   网站SEO策略   网站SEO   日期:2013-12-27
  • 最常用最典型的SEO作弊手段

    作为一名资深SEO工作者,我一直反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段而遭到惩罚,最终对SEO这个行业失去的兴起,一个新站想要迅速获得排名,除了积极原创内容,积极提升高质……【查看全文

    阅读:3507关键词: seo   seo手段   日期:2015-11-01
  • 影响搜索引擎算法和SEO优化的139个相关因素

    众所周知,网站优化是随着搜索引擎算法的升级不断的探索和寻求效果的优化推广方式,对于网站的SEO优化,也是SEO技术不断提升的一个过程,随着搜索引擎的算法在不断的完善,网站的竞争应该会趋向于网站的内容,网站的内容越好,那么跳出率就不会高,排名也会比较的靠前,……【查看全文

    阅读:907关键词: 搜索引擎   搜索引擎算法   seo优化   seo因素   seo   日期:2014-07-31
↓ 点击查看更多 ↓

互联网更多>>

  • 移动互联网是什么意思? 移动互联网是什么意思? 移动互联网就是将移动通信和互联网二者结合起来成为一体,是指互联网的技术、平台、商业模式和应用与移动通信……
  • 计算机的开机启动原理 计算机的开机启动原理 计算机从打开电源到开始操作,整个启动可以说是一个非常复杂的过程。总体来说,计算机的整个启动过程分成四个……
  • 互联网思维究竟是一种什么样的思维? 互联网思维究竟是一种什么样的思维? 但凡做企业的,不管是创业的还是在互联网冲击下转型升级的传统行业企业家,“互联网思维”已经成为了大家共同……

SEO优化 更多>>

医疗行业开展品牌推广急需解决的10大问题 如何以一个用户的角度来做企业门户网站