马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 揭秘搜索引擎中的反SEO作弊研究

揭秘搜索引擎中的反SEO作弊研究

时间:2012-10-15   文章来源:www.mahaixiang.cn   访问次数:

SEO简称为搜索引擎优化。其主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。

在国外,SEO开展较早,那些专门从事SEO的技术人员被Google称之为searchengineoptimizers(SEOers)。由于Google是目前最大的搜索引擎提供商,Google也成为了全世界SEOers的主要研究对像。为此Google官方网站专门有一页介绍SEO,并表明 Google对SEO的态度。

揭秘搜索引擎中的反SEO作弊研究

SEO的出现最早是研究搜索同HACK找寻漏洞的技术发展中引渡过来的,一部分人发现了这个可以左右搜索排名的机制问题,而在世界顶级搜索引擎Google的飞速发展及排名算法机制不断更新的情况下,SEO技术及队伍也在近些年来飞速发展和壮大,人们对它的认可和重视也与日俱增。

揭秘搜索引擎中的反SEO作弊研究

一、SEO作弊
  1、什么是seo作弊

搜索引擎作弊,或称为SEO作弊、SEOSpam、搜索引擎垃圾等,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。

2、如何作弊

由于技术型搜索引擎在网站排名过程中完全由蜘蛛程序自动完成,没有人工参与,这为那些针对排名原理而采用欺骗蜘蛛程序的手段提供了成功的可能性。在SEO的发展过程中,一直伴随着关于作弊方法的讨论,成为业界关注的话题。成为SEO必须了解基本的作弊手段,目的是避免无意间采用了相关手段遭到处罚。以下是被视为作弊的常见手段

a)、关键字堆砌。为了增加关键词的出现频次,故意在网页代码中,如在META、title、注释、图片ALT以及URL地址等地方重复书写某关键词的行为(stuffing)。

b)、虚假关键词。通过在META中设置与网站内容无关的关键词,如在title中设置热门关键词,以达到误导用户进人网站的目的。同样的情况也包括链接关键词与实际内容不符的情况。

c)、隐形文本/链接。为了增加关键词的出现频次,故意在网页中放一段与背景颜色相同的、包含密集关键字的文本。访客看不到,搜索弓I擎却能找到。类似方法还包括超小号文字、文字隐藏层等手段。隐藏链接是在隐形文本的基础上,在其他页面添加指向目标优化页的行为。

d)、重定向(re-direct)。使用刷新标记(metarefresh)、CGI程序、Java、JavaScript或其他技术,当用户进人该页时,迅速自动跳转到另一个网页。重定向使搜索引擎与用户访问到不同的网页。

e)、偷换网页。也称诱饵行为(bait-&-switch),是在一个网页成功注册并获得较好排名后,用另一个内容无关的网页来替换它的行为。

f)、复制站点或内容。通过复制整个网站或部分网页内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引的行为。镜像站点(miiwsites)是此中典型。

g)、桥页/门页(bridge/doorway/portal/entry)。计对某一关键词专门制作一个优化的页面,链接指向或重定向到目标页面。有时候为动态页面建立静态人口,或为不同的关键词建立不同内页也会用到类似方法。但与桥页不同的是,前者是网站实际内容所需而建立的,是访问者所需要的,而桥页本身无实际内容,只针对搜索引擎作了一堆充斥了关键词的链接而巳。

h)、隐形页面(cloakedpage)。指同一个网址下对不同的访问者选择性地返回不同的页面内容,搜索引擎得到了高度优化的网页内容,而用户则看到不同的内容。

i)、重复注册。违反网站提交纪律,突破时间间隔限制,将一个网页在短时间内反复提交给同一个搜索引擎以获得收录的做法。

j)、垃圾链接。加人“链接工厂”(亦称大量链接机制)是由大量网页交叉链接而构成的一个网络系统。一个站点加入“链接工厂”后,它可得到来自该系统中所有网页的链接,同时作为交换,它需要“奉献”自己的链接,以此方法来提升链接得分。

二、搜索引擎反作弊
  1、为什么?索引擎要反作弊

对于上述提到的搜索引擎作弊行为,几乎所有搜索弓I擎都是反对的。SEOspam的破坏性是相当巨大的,它不仅直接破坏了搜索引擎网站赖以生存的关键所在,即每日数以亿计的用户搜索体验,同时也破坏了搜索引擎获得收益的主要来源,如竞价排名以及相关广告。

搜索引擎反作弊类同于互联网的病毒与反病毒。因此,作为搜索引擎,对待垃圾和作弊网站的态度也是高度一致:惩罚或者删除。几乎所有的?索引擎官方站点也公布了一些原则,对作弊行为进行鉴定,并给出了对应的惩罚措施。比如2005年3月26日凌晨4点,忍无可忍的Google突然发力,将一大批spam 站点清除。(近期关注度较高的6.25和6.28百度针对低质量站点进行反作弊调整就K掉了很多低质和作弊站点,有兴趣的可以看下《2012.8.25百度再次大面积k站之浅谈》《百度官方公告算法再次升级,将影响作弊站点收录及低质站点的排序》)

2、反作弊

搜索引擎作弊其实不仅仅是损害了搜索引擎拥有者的利益。从长远看,如果网站的本身质量并没有提高,而是通过搜索引擎作弊来吸引浏览者,那么网站最终还是得不到用户的青睐,无法留住浏览者,最终受到伤害的还是网站本身。

虽然通过技术手段不可能完全杜绝各种搜索引擎作弊行为,但还是能够有效减少这些行为。解决办法如下:

a)、加强页面内容的智能判断。对于关键字堆砌和虚假关键字这两种作弊行为,应加强智能判断。例如从页面的〈body〉</body>部分 提取,而非〈title〉〈/title〉或者<meta〉〈/meta>部分;判断关键宇是否仅在某一段落内重复,以去除恶意重复现象。对 于重定向这种行为,应对页面内增加重定向分析。使用刷新标记进行重定向,可以在页面内容中进行标记判断;使用JavaScript来进行重定向,可以对页 面中的JavaScript代码进行判断。

b)、网络爬虫隐身。无论是隐形页面、偷换页面,还是重定向,都会对网站的当前访问者进行判断,从而对网络爬虫和普通用户作出不同的反应。搜索引擎应该让一部分网络爬虫隐身,装扮成普通用户来访问网站,对网站进行测试,便可以有效杜绝这种类型的作弊。

c)、网站历史记录。对网站的页面变更记录其历史。一般来说一个W站的非内容部分的页面变化是很小的,如网站目录结构、页面结构、很多特殊连接都是不经 常变化的。如果某一个网站变化较大,就有必要对此网站作进一步的审核。这样做可以杜绝偷换网页这一作弊方法,并提高人工审核的效率。

d)、网站评级。一般来说,好的网站上的链接质量也会很高,而一些垃圾网站的链接也多是与其相似的网站。也就是说,网站也是聚类生存的。因此,可以对网站进行评级归类,以有效预防通过垃链连接来作弊的网站。

通过以上四种方法,可以有效提高搜索引擎的反SEO作弊能力,但这样并不能完全杜绝SEO作弊。要想提高搜索引擎的反作弊能力,还必须要人的加入,综合使用各种方法,逐级分层审?。

第一层是提高技术手段。例如加强页面的智能分析和网络爬虫的抓取能力,增加爬虫隐身能力。其目的是进行最底层的反作弊判断,判断的对象是页面,由电脑进行海量的重复性作业。

第二层是网站分析。通过网站的历史记录与网站评级系统,对网站进行分析评价。目的是从中筛去合法的,找出有SEO作弊嫌疑的网站,判断的对象是网站,由电脑和人进行比较筛选。

第三层是最终评审。由人对筛选出的嫌疑网站进行试用、评审。判断的对象是网站,完全由人完成,并得出最终结论。

通过电脑与人工的合作作业,可以基本上杜绝搜索引擎优化中的作弊行为,使搜索引擎的结果更符合浏览者的需要。

三、Google网页评级系统
  Google搜索引擎采用的核心软件PageRank是由Google创始人开发出的一套用于网页评级的系统。这是Google搜索排名算法中的一个组 成部分,级别从1到10级,10级为满分,PK值越高说明该网页在搜索排名中的地位越重要。也就是说,在其他条件相同的情况下,PR值高的网站在 Google搜索结果的排名中有优先权。网页级别由此成为Google所有网络搜索工具的基础。

1、Google对网页级别的描述

作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页A链接到网页B时,Google就认为A投了B—票。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google还要分析投票的网页。重要的网页所投出的票就会有更高的权重,并且有助于提高其他网页的重要性。

重要的高质量网页会获得较高的网页级别。Google在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足用户的查询要求,网页级别再高,对用户来说也毫无意义。因此,Google将网页级别与完善的文本匹配技术结合在一起,为用户找到最重要、最有用的网页

Google所关注的远远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检?,从而确定该网页是否满足用户的?询要求。

2、PR值算法原理

PR值算法总体上基于下面两个前提:

a)、—个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均传递到它所引用的网页。这种重要的网页称为权威(authoritive)网页。

b)、假定用户一开始随机地访问网页集合中的一个网页,然后跟随网页的链接向前浏览网页,不回退浏览,那么浏览下—个网页的概率就是被浏览网页的PageRank值。

影响PR值的因素如下:

PR值体现为0~10的11个数值,在Google的工具栏上以一条横向绿色柱状图显示,0级情况下呈白色。它是针对网页而不是网站,因此一个网站的首页和内页往往有着迥然不同的PR值。根据PR值的算法原理,可知影响一个网站(首页)PR值的因素主要包括:

1、网站的导人链接质量。(a)根据前文对高质量导入链接的分析,则获得高PR值需要获得来自网站的链接;(b)加人搜索引擎分类目录;(c)与已经加 人目录的网站交换链接;(d)获得来自PR值不低于4并与用户主题相关或互补的网站的链接;(e)用户链接出现在流量大、知名度高、频繁更新的重要网站上 (如新闻源)。(f)与用户交换链接的网站具有很少导出链接;(g)与内容质量高的网站链接(PR值上升潜力大)。

2、导出链接数量。根据PR计算原理,由于“一个网页的重要性被平均传递到它所引用的网页”,反过来看,一个页面内过多地导出链接将潜在引起该页PR值的流失。但从内容的角度看,适当数量的与主题有关联的导出链接给搜索引擎带来良好的印象。因此,一个页面,尤其是首页的导出链接数量的把握,应该兼顾到PR值与关键词内容两者之间的平衡,即控制导出链接数量,以不超过10个为宜。

3、搜索引擎收录一个网站的页面数量。在探讨SEO的时候,人们过多关注核心关键词排 名以及首页的表现情况,却往往忽略了一个极其重要的问题,即搜索引擎对一个网站收录的页面数量。后者在SEO中也有着极其重要的意义。一个用核心关键词查 询排名不佳的网站,可能由于被抓取大量网页而在用户使用其他关键词查询时内页获得前三甲排名。由于用户搜索时使用的关键词具有分散性,使得这种情况往往给 网站带来极大的访问量。

正因为收录页面的数量直接影响访问量,所以对PR值的影响也是很大的。被收录页面越多,主页PR值越高。不过需要强调的是,此处所指的数量是指被收录数与网站页面总数的比值,而不是收录页面的绝对数值。但对各个搜索引擎来说,究竟达到多大的比值算是良好,目前还没有相关的数据。

4、首页PR的高低。尽管对PR的界定是针对网页而不是网站,但由于每个网页都依托某一网站而存在,首页是推广的核心页面,网站 首页PR高低对内页各PR也产生直接影响。—般而言,一个网站各页面的PR值呈现以下走向:首页>—级页面>二级页面>三级页面……每 深人一级,PR降低一或两个档次。更深层次可能就无法列人评级范围了。当然,如果一个深层内页有很多外部或内部链接,情况则另当别论。

5、文件类型。Google可以索引到的网页和文件类型包括pdf、asp、jsp、html、shtml、xml、cfin、doc、xls、ppt、 rtf、wks、lwp、wri、swf。做成PDF格式的文件往往都是网站比较重要的内容或文章。因此Google默认PDF格式文件的PR值为3,高于一般HTML文件。同理,Google给予XML、PS、Woid、PowerPoint、Excel等类型页面的PR值也比普通网页文件高。因此,对 于网站比较有价值的内容,建议做成pdf格式。

6、PR值的更新。Google每个月进行一次彻底的数据更新(google dance),更新后的网站排名和导人链接都会有某些变化,但其PR更新时间一般要延迟至dance后三个月左右,而且网站的PR值相对稳定,要上升或下降一级PR是很不容易的事情。

7、PR值的作用。由于网页级别的高低直接受链接的影响,而链接仅是SEO的一个方面,PR的高低只能反映出SE0的部分效果。一个网页如果拥有高PR值能够 说明的仅是:a)网页比较重要,拥有排名靠前的优先权,并不能与排名靠前直接划上等号;b)具有获得高质量导入链接的谈判优势;c)搜索引擎会加快对网页 数据的更新;d)看上去挺美。

正因为具有排名靠前的优先权和谈判优势,使得高PR网站往往最终确实产生高排名,业内不少人士就干脆直接将 PR与SEO划等号,这不仅不正确,也不利于SEO实施。因为PR值不高的网站同样有可能获得好的排名,而PR值高的不见得有理想的排名。并且在这样的思想指导下,人们往往片面追求链接效应,忽略了SEO对于内容、结构、关键词等方面的分析和改进,而后者才是用户和搜索引擎长期关注的焦点。网络营销人士认为:PR值的高低应该是包括SEO在内的搜索引擎营销所产生的自然结果,而不应该作为追求的目标。

对于搜索引擎优化,各大搜索引擎的态度是不同的,有的并不表态,有的公开支持。合法的搜索引擎优化应该是值得鼓励的,可以为搜索引擎提供更为精确的网站索引。 搜索引擎优化中的作弊行为是被各大搜索引擎一致拒绝并提供了各种处罚措施。要想完全杜绝搜索引擎排名中的作弊行为是不可能的,一个成功的搜索引擎应必须要做到尽量避免索引到垃圾页面。要做到这个目标,就必须从域名的分析到页面内容的抽取、从网站历史行为到最新页面状态的检索都进行检?。可以肯定的是,各大搜索引擎的反作弊策略只是刚刚开始。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/128.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 搜索引擎   反SEO作弊   SEO研究  

上一篇:揭秘百度统计和Google Analytics的工作原理
下一篇:什么是互联网生态?互联网生态项目包含了那些内容?

您可能还会对以下这些文章感兴趣!

  • 影响谷歌搜索排名算法的5大趋势

    从2010年开始谷歌的算法调整就非常的频繁,熊猫、企鹅、蜂鸟算法等都是典型的例子,而这些算法都主要是打击那些低质量链接和内容的网站,打击黑帽SEO对互联网带来的不良影响。而那些给用户提供高质量内容的网站将会获得更好的排名,得到更多的访客。这就意味着你的网站需要给……【查看全文

    阅读:526关键词: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 超链接超文本文档检索系统原理和分析方法

    超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎,它的索引器遍历超文本数据库并寻找包括超链指向的文档地址……【查看全文

    阅读:745关键词: 超链接   超文本   检索原理   日期:2017-02-07
  • 最常用最典型的SEO作弊手段

    作为一名资深SEO工作者,我一直反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段而遭到惩罚,最终对SEO这个行业失去的兴起,一个新站想要迅速获得排名,除了积极原创内容,积极提升高质……【查看全文

    阅读:3507关键词: seo   seo手段   日期:2015-11-01
  • 详解搜索引擎的高级搜索语法指令

    作为一名SEOer,我们不但要学SEO的技巧,还要懂得使用一些搜引擎的搜索指令,这些搜索指令普通的用户几乎用不到,但对SEO用来研究竞争对手和查找外部的资源却是非常的有用。一名专业的SEO人员除了在搜索引擎搜索普通的关键词外,还需要使用一些特殊的高级搜索指令来查询……【查看全文

    阅读:3161关键词: 搜索引擎   高级搜索   搜索语法   搜索指令   日期:2014-11-07
  • 什么是长尾关键词?

    网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。搜索量非常少,并且不稳定。长尾关键词带来的客户,转化为网站产品客户的概率比目标……【查看全文

    阅读:8048关键词: 长尾关键词   关键词   长尾关键词是   关键词是什么   日期:2013-10-12
  • 影响搜索引擎算法和SEO优化的139个相关因素

    众所周知,网站优化是随着搜索引擎算法的升级不断的探索和寻求效果的优化推广方式,对于网站的SEO优化,也是SEO技术不断提升的一个过程,随着搜索引擎的算法在不断的完善,网站的竞争应该会趋向于网站的内容,网站的内容越好,那么跳出率就不会高,排名也会比较的靠前,……【查看全文

    阅读:907关键词: 搜索引擎   搜索引擎算法   seo优化   seo因素   seo   日期:2014-07-31
  • 史上最全的网站SEO策略方案

    在搜索引擎优化中,一个网站的SEO策略能最终影响到网站未来的优化效果。SEO策略不管对中小网站还是大型网站都是重要的,尤其是对于大型网站,制定一个好的SEO策略就显得尤为重要了。一般的企业网站优化需要考虑的就是排名、长尾、转化率。可是对于大型门户站的seo优化则……【查看全文

    阅读:11545关键词: 网站SEO   SEO策略   SEO方案   SEO   网站SEO策略   SEO策略方案   日期:2013-12-17
  • 网站内链是什么?

    内链考验的是网站细节,一个链接、一段代码在SEO优化中可能起不到任何效果,但到100个,200个精准内链的时候,情况就大不同了,你可以通过修改网站的细节,避免网站造成潜在的权重损失。做过SEO的朋友都应该听过这样一句话:“大站做内链,小站做外链”,我们可以理解为……【查看全文

    阅读:2170关键词: 网站内链   内链是什么   什么是内链   内链   日期:2014-07-07
  • 网站运营的八大SEO策略

    一个大型网站的SEO成功,绝不仅仅是依靠单一SEO技术的成功,最重要的还是靠SEO思维策略,并且把这些SEO思维策略融入到网站运营中,才能使其SEO达到最佳的效果!总的来说,SEO策略就通过实践、总结、思考和创新来创造或者组合各种资源来达放大突破SEO效果,区别于SEO技术……【查看全文

    阅读:1666关键词: 网站运营   SEO策略   网站SEO策略   网站SEO   日期:2013-12-27
  • 如何通过IIS日志分析网站的隐形信息

    通过IIS日记的记录我们可以更加清楚的分析出搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何?因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行……【查看全文

    阅读:1822关键词: iss日志   iss分析   网站分析   iss   网站信息   日期:2014-08-09
↓ 点击查看更多 ↓

互联网更多>>

  • 互联网思维究竟是一种什么样的思维? 互联网思维究竟是一种什么样的思维? 但凡做企业的,不管是创业的还是在互联网冲击下转型升级的传统行业企业家,“互联网思维”已经成为了大家共同……
  • 移动互联网是什么意思? 移动互联网是什么意思? 移动互联网就是将移动通信和互联网二者结合起来成为一体,是指互联网的技术、平台、商业模式和应用与移动通信……
  • 计算机的开机启动原理 计算机的开机启动原理 计算机从打开电源到开始操作,整个启动可以说是一个非常复杂的过程。总体来说,计算机的整个启动过程分成四个……

SEO优化 更多>>

医疗行业开展品牌推广急需解决的10大问题 如何以一个用户的角度来做企业门户网站