马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 搜索引擎蜘蛛的基本原理及工作流程

搜索引擎蜘蛛的基本原理及工作流程

时间:2014-09-09   文章来源:马海祥博客   访问次数:

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛分布爬行。

搜索引擎蜘蛛的基本原理及工作流程-马海祥博客

蜘蛛访问网站时,首先会访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,再或者网站,蜘蛛将遵循协议,不对其进行抓取(具体可查看马海祥博客《robots协议文件的写法及语法属性解释》的相关介绍)。

蜘蛛也是有自己的代理名称的,在站长日志中可以看出蜘蛛爬行的痕迹,这也就是为什么这么多站长解答问题的时候,都会说先查看网站日志(作为一个出色的SEO你必须具备不借助任何软件查看网站日志的能力,并且要非常熟悉其代码的意思)。

一、搜索引擎蜘蛛的基本原理

搜索引擎蜘蛛即Spider,是一个很形象的名字,把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

搜索引擎蜘蛛的基本原理及工作流程

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。

这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕),同时,由于数据量太大,在提供搜索时也会有效率方面的影响。

因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页(每个搜索引擎的蜘蛛抓取的原则也都不同,具体可对照一下马海祥博客的《解读IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码》相关介绍来查询一下你的网站日志),而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数,例如,下图中所示:

搜索引擎蜘蛛的基本原理及工作流程-马海祥博客

A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层,如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的,这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。

对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。

当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。

网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

二、追踪链接

由于搜索引擎蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。

整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。

搜索引擎蜘蛛的基本原理及工作流程-马海祥博客

当然网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面,据马海祥了解最简单的爬行策略有3种:

1、最佳优先

最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“有用”的网页。

存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,据马海祥博客的研究发现,这样的闭环调整可以将无关网页数量降低30%~90%。

2、深度优先

深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

3、广度优先

广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。

在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不能爬完所有页面,实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分,当然也并不是搜索引擎蜘蛛爬取的越多越好,这点我曾在马海祥博客的《抓取网站的搜索引擎蜘蛛是不是越多越好》一文中跟大家做过详细的介绍。

因此,为了尽量多的抓取用户信息,深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。

三、搜索引擎蜘蛛工作中的信息收集

信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分,“蜘蛛”这个称呼形象的描述出了信息收集模块在网络数据形成的“Web”上进行信息获取的功能。

总体而言,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。

而其工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。

1、累积式抓取

累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取的策略可以保证抓取到相当规模的网页集合。

但在马海祥看来由于Web数据的动态特性,集合中网页的被抓取时间点是不同的,页面被更新的情况也不同,因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

2、增量式抓取

与累积式抓取不同,增量式抓取是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。

进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这些页面被抓取的时间信息。面向实际应用环境的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓取的策略。

累积式抓取一般用于数据集合的整体建立或大规模更新阶段,而增量式抓取则主要针对数据集合的日常维护与即时更新。

在确定了抓取策略之后,如何从充分利用网络带宽,合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。

总体而言,在合理利用软硬件资源进行针对网络数据的即时抓取方面,已经形成了相对比较成熟的技术和实用性解决方案,马海祥觉得在这方面目前所需解决的主要问题是如何更好的处理动态网络数据问题(如数量越来越庞大的Web2.0数据等),以及更好的根据网页质量修正抓取策略的问题。

四、数据库

为了避免重复爬行和抓取网址,搜索引擎会建立一个数据库,记录已被发现还没有抓取的页面和已经被抓取的页面,那么数据库中的URL是怎么来的呢?

1、人工录入种子网站

这个简单的来说,就是我们建好一个新站后,向百度、Google或360提交的网址收录。

2、蜘蛛抓取页面

如果搜索引擎蜘蛛在爬取的过程中,发现了新连接URL,数据库中没有,就会存入待访问数据库(网站观察期)。

蜘蛛按重要性从待访问数据库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中,所以马海祥建议各位站长在网站观察期的时候尽量有规律的更新网站是必要的。

3、站长提交网站

一般来说,提交网站只是把网站存入待访问数据库,如果网站持久不更新蜘蛛也不会光顾,搜索引擎收录的页面都是蜘蛛自己追踪链接得到的。

所以你提交给搜索引擎其实用处不大,还是要根据后期你网站更新程度来考虑,搜索引擎更喜欢自己沿着链接发现新页面,当然如果说你的SEO技术够老练,并且有这能力,可以试一下,说不定会有意想不到的效果,不过,对于一般在站长来说,马海祥还是建议让蜘蛛自然的爬行和抓取到新站页面。

五、吸引蜘蛛

虽然理论上说蜘蛛可以爬行和抓取所有页面,但实际上是不可能完成的,那么SEO人员想要收录更多的页面就只有想办法引诱蜘蛛抓取。

既然抓不了所有页面,那么我们就要让它抓取重要页面,因为重要页面在索引中起到重要决定,直接影响排名的因素,哪么那些页面算是比较重要的呢?对此,马海祥也特意整理了以下几个我认为比较重要页面,具体有这么几个特点:

1、网站和页面权重

质量高、年龄老的网站被给予很高的权重,这种网站上的页面蜘蛛爬行的深度比较高,所以会有更多的内页被收录。

2、页面更新度

蜘蛛每次爬行都会把页面数据储存起来,如果第二次爬行时发现此页面与第一次收录的内容完全一样,说明页面没有更新,蜘蛛也没必要经常再来爬行和抓取。

如果页面内容经常更新,蜘蛛就会频繁的爬行和抓取,那么,页面上的新链接自然的会被蜘蛛更快的追踪和抓取,这也就是为什么需要每天更新文章(具体可查看马海祥博客的《百度收录网站文章的现状及原则依据》相关介绍)。

3、导入链接

无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本不知道页面的存在。此时的URL链接起着非常重要的作用,内链的重要性发挥出来了。

另外,马海祥觉得高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。

这也就是为什么大多数站长或SEO都要高质量友情链接,因为蜘蛛从对方网站爬行到你网站之次数多,深度也高。

4、与首页点击距离

一般来说网站首页权重最高,大部分外部链接都指向首页,蜘蛛访问最频繁的也是首页,离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也就越大。

这也就是为什么要求网站框架建设点击三次就能查看完整个网站的意思。

六、蜘蛛爬行时的复制内容检测

一般都知道在搜索引擎索引环节中中会进行去重处理,其实在蜘蛛爬行的时候已经在进行检测,当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。

所以对于新站来说切莫采集和抄袭,这也就是为什么很多站长查看日志的时候发现了蜘蛛,但是页面从来没有被抓取的原因,因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。

马海祥博客点评:

虽说蜘蛛的作用就是让搜索引擎对有效链接进行搜寻,但并不意味着蜘蛛越多越好,有时过多的蜘蛛来网站抓取会造成一定的负面效果,会影响服务器的运行,导致网页打开缓慢。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/797.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 搜索引擎   搜索引擎蜘蛛   基本原理   工作流程  

上一篇:深度解读百度搜索引擎网页质量白皮书
下一篇:锚文本链接是什么?

您可能还会对以下这些文章感兴趣!

  • 最常用最典型的SEO作弊手段

    作为一名资深SEO工作者,我一直反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段而遭到惩罚,最终对SEO这个行业失去的兴起,一个新站想要迅速获得排名,除了积极原创内容,积极提升高质……【查看全文

    阅读:3507关键词: seo   seo手段   日期:2015-11-01
  • SEO优化人员常用的30个灰帽SEO或黑帽SEO技巧

    笼统的来讲,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO,比如说垃圾链接,隐藏网页,桥页,关键词堆砌等等,当然,也有一些SEO技术被称为灰帽SEO,这些行为因为不算违规,但同样也不遵守规则,是为SEO的灰色地带。如今国内的灰帽SEO或黑帽SEO在SEO培训的推动下……【查看全文

    阅读:10075关键词: seo优化   灰帽seo   黑帽seo   seo技巧   seo   日期:2014-09-26
  • 如何选择购买网站域名更利于SEO优化推广

    每个网站都有一个独立的域名,对于搜索引擎来说就是网站的门面,一个好的域名既可以让用户牢记、利用SEO优化,又可以为网站增添精美的一笔,另外,域名也是互联网公司以及个人站长最重要的无形资产之一,所有网站的内容、流量都与特定的域名相联系,所以,一个好的域名……【查看全文

    阅读:1198关键词: 域名选择   域名购买   网站域名   seo优化   优化推广   日期:2014-07-22
  • HTTPS对网站性能优化的影响

    HTTPS是超文本传输协议,是HTTP的加密版和安全版,或者说搜索引会认为这种“带锁”的页面,这种页面一般用于银行、金融、网上支付对通讯安全要求较高的网站,搜索引擎并不太喜欢收录这些页面,可能只收录一些重要的页面,所以说全站HTTPS对SEO影响很大,搜索引擎还不能很好的……【查看全文

    阅读:4977关键词: https   网站优化   日期:2016-01-24
  • 百度11位现象产生的原因及解决方法

    百度11位现象是指被百度进行了人工干预降权所导致的,一些百度指数比较大的关键词的网站在一段时间内(通常在一个月以上)一直在百度排名的第11位,具体表现出排名下滑至第二页的第一位,也就是自然排名在第11位的现象,这种现象是针对在进行百度SEO优化的时候,网站用……【查看全文

    阅读:969关键词: 百度11位现象   百度11位   百度11位原因   解决方法   日期:2014-05-23
  • 百度排名11位现象的判定特征

    百度排名11位是指你的站点中流量不错的主要关键词(有些流量的,排名前几位的)百度排名从首页或第一位被固定在第二页的第一位(即第11位),且不止一个词,存在多个关键词同时掉到11位,期间无论是百度更新还是其他的站排名上升下降,关键字排名总是第11位或者之后……【查看全文

    阅读:1599关键词: 百度排名   百度11位现象   百度11位   日期:2014-11-13
  • SEO实战经验:如何对网站进行全面改版而不被降权

    对于一些大型网站的改版经常是商业决定,不是SEO部分所能控制的。但SEO人员必须参与到改版的计划过程中,提前认真规划,预想到所有可能的情况,尽量一次改版正确,避免改来改去。尤其是URL有变化时,搜索引擎对大量新出现的URL会很敏感,需要重新收录、计算权重,也很可……【查看全文

    阅读:2771关键词: 网站改版   网站全面改版   SEO实战经验   网站降权   日期:2012-09-26
  • 沙盒效应是什么?

    沙盒效应 沙盒英文单词叫Sandbox,是Google反击垃圾网站的重要措施,最先出现在2004年3月的Google,也就是举世瞩目的Google佛罗里达风暴和奥斯丁风暴之后的半年。之后人们在百度上也发现有沙盒效应。所谓沙盒效应,其实就是搜索引擎的一种过滤算法,暂时把网站原来排名较好的……【查看全文

    阅读:1250关键词: 沙盒效应   沙盒效应是什   怎么会进入沙   日期:2012-08-22
  • Google图片搜索辨别技术的原理

    自从做了这个关于seo思维的马海祥博客以后,最近一直在写些关于seo经验的文章跟大家分享,为了使文章更加的生动形象,增加趣味性,我也特意在文章中穿插了一些图片,于是最近也就经常用百度图片搜索、google图片搜索功能,在使用的过程中,也使我对搜索引擎是如何把图片……【查看全文

    阅读:1107关键词: Google图片   图片搜索   Google图片搜   日期:2012-09-15
  • 详解网站被百度惩罚降权的具体表现

    网站被惩罚或降权是很多站长和SEO最为关注及敏感的事情,通常我们对于网站惩罚有这样几个概念:网站排名下降、网站降权、网站被K等现象,但随着搜索引擎算法的不断升级,对网站的惩罚情况又进行了细分,也就产生了更多的惩罚形式,那网站被百度惩罚降权的具体表现有哪些呢……【查看全文

    阅读:2124关键词: 网站降权   百度惩罚   日期:2014-12-11
↓ 点击查看更多 ↓

互联网更多>>

  • 今日头条的个性化推荐算法 今日头条的个性化推荐算法 互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但也使得用户在面对大量信息时无法从中获……
  • 百度知道的移动互联网转型 百度知道的移动互联网转型 成立十周年的百度知道当之无愧的成为PC端的UGC产品之王,昔年的搜搜问问、奇虎问答、新浪爱问、天涯问答等都成了……
  • 互联网技术的50年发展回顾与分析 互联网技术的50年发展回顾与分析 1998年至2008年是公认的互联网飞速发展的十年,无论是传输速率、网络规模、关键技术还是应用领域都经历了大幅的增……

SEO优化 更多>>

移动端手机站做站内优化的要点 导致网站降权或被k的原因有哪些?