马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 揭秘搜索引擎是怎么删除重复网页的?

揭秘搜索引擎是怎么删除重复网页的?

时间:2012-09-28   文章来源:mahaixiang.cn   访问次数:

最近一直听到圈里的朋友抱怨说,自己辛辛苦苦写的文章,发表的前2天,排名还是很好的,可是被权重高的网站转载后,就排名很靠后了,甚至过段时间连文章也被百度k掉了。其实百度曾在站长贴吧里做过这样一个回复:从用户体验角度来说,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%,而完全相同的页面大约占全部页面的22%。很多站长都会抱怨,自己写的文章被转载后要么排名消失、要么转载站排在前面。

在解决这个问题之前,我认为有必要了解下搜索引擎的“去重算法框架”,换个角度看看搜索引擎是怎么给网页去重的。

你的网页什么时候会被删除?

因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页:

(1)、抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;

(2)、收录之后删除重复网页;

(3)、用户检索时候进行再次删除;增加准确性,耗费时间;

内容重复的4种类型:

1、如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”

2、如果2篇文章内容相同,但是格式不同,则叫做“内容重复页面”

3、如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”

4、如果2篇文章有部分重要的内容相同,但是格式不同,则称为“部分重复页面”

删除重复网页对于搜索引擎有很多好处:

1、如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。

2、为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。

3、对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。

4、近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。

通用去重算法框架

对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,但是如果仔细研究,其实大致都差不多。

搜索引擎通用去重算法框架

上图给出了通用算法框架的流程图,对于给定的文档,首先要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,一般来说,删除的信息越多,计算速度会越快。

这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。总之,我个人认为要想做好一个站,最终还是要从访客的角度来,真正能提供访客想要的资讯,才能有更长远的发展。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/109.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 搜索引擎   删除重复网页   揭秘搜索引擎  

上一篇:SEO实战经验:如何对网站进行全面改版而不被降权
下一篇:如何正确设置多样性的404页面?

您可能还会对以下这些文章感兴趣!

  • 超链接超文本文档检索系统原理和分析方法

    超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎,它的索引器遍历超文本数据库并寻找包括超链指向的文档地址……【查看全文

    阅读:745关键词: 超链接   超文本   检索原理   日期:2017-02-07
  • 史上最全的网站SEO策略方案

    在搜索引擎优化中,一个网站的SEO策略能最终影响到网站未来的优化效果。SEO策略不管对中小网站还是大型网站都是重要的,尤其是对于大型网站,制定一个好的SEO策略就显得尤为重要了。一般的企业网站优化需要考虑的就是排名、长尾、转化率。可是对于大型门户站的seo优化则……【查看全文

    阅读:11545关键词: 网站SEO   SEO策略   SEO方案   SEO   网站SEO策略   SEO策略方案   日期:2013-12-17
  • 网站运营的八大SEO策略

    一个大型网站的SEO成功,绝不仅仅是依靠单一SEO技术的成功,最重要的还是靠SEO思维策略,并且把这些SEO思维策略融入到网站运营中,才能使其SEO达到最佳的效果!总的来说,SEO策略就通过实践、总结、思考和创新来创造或者组合各种资源来达放大突破SEO效果,区别于SEO技术……【查看全文

    阅读:1666关键词: 网站运营   SEO策略   网站SEO策略   网站SEO   日期:2013-12-27
  • 影响谷歌搜索排名算法的5大趋势

    从2010年开始谷歌的算法调整就非常的频繁,熊猫、企鹅、蜂鸟算法等都是典型的例子,而这些算法都主要是打击那些低质量链接和内容的网站,打击黑帽SEO对互联网带来的不良影响。而那些给用户提供高质量内容的网站将会获得更好的排名,得到更多的访客。这就意味着你的网站需要给……【查看全文

    阅读:526关键词: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 最常用最典型的SEO作弊手段

    作为一名资深SEO工作者,我一直反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段而遭到惩罚,最终对SEO这个行业失去的兴起,一个新站想要迅速获得排名,除了积极原创内容,积极提升高质……【查看全文

    阅读:3507关键词: seo   seo手段   日期:2015-11-01
  • 详解搜索引擎的高级搜索语法指令

    作为一名SEOer,我们不但要学SEO的技巧,还要懂得使用一些搜引擎的搜索指令,这些搜索指令普通的用户几乎用不到,但对SEO用来研究竞争对手和查找外部的资源却是非常的有用。一名专业的SEO人员除了在搜索引擎搜索普通的关键词外,还需要使用一些特殊的高级搜索指令来查询……【查看全文

    阅读:3161关键词: 搜索引擎   高级搜索   搜索语法   搜索指令   日期:2014-11-07
  • 如何通过IIS日志分析网站的隐形信息

    通过IIS日记的记录我们可以更加清楚的分析出搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何?因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行……【查看全文

    阅读:1822关键词: iss日志   iss分析   网站分析   iss   网站信息   日期:2014-08-09
  • 网站内链是什么?

    内链考验的是网站细节,一个链接、一段代码在SEO优化中可能起不到任何效果,但到100个,200个精准内链的时候,情况就大不同了,你可以通过修改网站的细节,避免网站造成潜在的权重损失。做过SEO的朋友都应该听过这样一句话:“大站做内链,小站做外链”,我们可以理解为……【查看全文

    阅读:2170关键词: 网站内链   内链是什么   什么是内链   内链   日期:2014-07-07
  • 影响搜索引擎算法和SEO优化的139个相关因素

    众所周知,网站优化是随着搜索引擎算法的升级不断的探索和寻求效果的优化推广方式,对于网站的SEO优化,也是SEO技术不断提升的一个过程,随着搜索引擎的算法在不断的完善,网站的竞争应该会趋向于网站的内容,网站的内容越好,那么跳出率就不会高,排名也会比较的靠前,……【查看全文

    阅读:907关键词: 搜索引擎   搜索引擎算法   seo优化   seo因素   seo   日期:2014-07-31
  • 什么是长尾关键词?

    网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。搜索量非常少,并且不稳定。长尾关键词带来的客户,转化为网站产品客户的概率比目标……【查看全文

    阅读:8048关键词: 长尾关键词   关键词   长尾关键词是   关键词是什么   日期:2013-10-12
↓ 点击查看更多 ↓

互联网更多>>

  • 计算机的开机启动原理 计算机的开机启动原理 计算机从打开电源到开始操作,整个启动可以说是一个非常复杂的过程。总体来说,计算机的整个启动过程分成四个……
  • 互联网思维究竟是一种什么样的思维? 互联网思维究竟是一种什么样的思维? 但凡做企业的,不管是创业的还是在互联网冲击下转型升级的传统行业企业家,“互联网思维”已经成为了大家共同……
  • 移动互联网是什么意思? 移动互联网是什么意思? 移动互联网就是将移动通信和互联网二者结合起来成为一体,是指互联网的技术、平台、商业模式和应用与移动通信……

SEO优化 更多>>

如何以一个用户的角度来做企业门户网站 医疗行业开展品牌推广急需解决的10大问题