马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > 站内SEO > 百度识别原创文章的方法策略是什么

百度识别原创文章的方法策略是什么

时间:2018-05-20   文章来源:马海祥博客   访问次数:

凡是做SEO的人,都和网站内容有着很大的挂钩,大多数人都强调内容要做原创,但认真做好原创内容的并不多,不过我依然坚持每天更新着原创,虽说排名权重依然没见影,但长期的更新能让自己学习到更多,虽说是原创,但是否具备参考价值,就留给读者慢慢品味了。

百度识别原创文章的方法策略是什么?-马海祥博客

伪原创文章我也说了很多次,但一直没有提到过,如何了解百度是识别伪原创文章的,以及如何针对百度做出相应的布局和调整!那今天马海祥就和大家一起去了解一下百度如何识别伪原创的文章的!

学习的目的就是学以致用,我们了解百度就是想如何的避免识别!

一、搜索引擎为什么要重视原创?

对应采集严重的现象,你会发现有价值的内容几乎都一样,导致用户找不到自己所需要的内容,于是就会使用其他的搜索引擎,目前国内的搜索引擎不再是百度一家独大,都是百家争鸣的局面,因此搜索引擎之间也是具备着各种各样的竞争性的,因此服务好用户,才是搜索引擎的最佳目的,而我们做SEO的,则是配合搜索引擎更好的服务于用户。

1、采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。

可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情(具体可查看马海祥博客《关于采集站采集文章更新维护的一些问答》的相关介绍)。

2、提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。

搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

3、鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

在优化内容的过程中,站长们总是会想去网上收集一些高质量的内容,但找了许久,发现大多都是一样并且重复的内容,其他内容完全找不到,这样的现象出现在整个互联网,采集信息现象泛滥,导致互联网上没有其他具有价值的内容,而只有少部分网站在坚持提供原创内容,因此往往会看到,坚持更新原创并具备价值内容的网站权重很高,这也算是内容差异化的打造现象。

1、采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的(具体可查看马海祥博客《有效防止文章被复制采集的方法技巧》的相关介绍)。

2、内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

3、网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别伪原创文章的方法

我们先不考虑百度是怎么识别的,如何是你,你该如何去判断一些文章的相似性,你是不是也有什么什么新的创意思想,是不是能准确快速的判断文章的相似性呢?你的脑海里是不是有了答案了,好!那现在我就带着大家深刻了解百度识别伪原创文章的方法,和你想象的是不是一样的呢?

1、百度蜘蛛的第一步工作就是把抓取的文章页进行一个,去标签,去链接的工作,紧接着就是要下面的工作了!

2、用比对的方式,也就是拿很多文章来,交叉比对,看看都有多少一样的!最后计算出两篇文章的相似度!相似度高,说明你的文章是复制的,抄袭的!

3、百度蜘蛛会把多个文章相同的部份去掉;剩下的就是文章的主要内容了,这样赤裸裸的文章更好比较!

4、百度蜘蛛会分词,把重复的词去掉,然后重新排序,成为一个词的数组,这个词组就是判断相似的另一个标准!

看到上面的几步骤,是不是和你想象的是一样呀!看到这是不是文章的相似度就可以得到比较了,是不是就可以计算出文章的相似度了呀!当然我们的主要目的还是如何运用这些技巧和策略 !

四、百度如何识别原创文章?

采集得多,不但会导致互联网上的内容同质化严重,也会出现一些文字图片的丢失现象,影响用户的搜索体验,因此搜索引擎才会推出一系列算来来要求广大站长提供优质的内容,因此在这里马海祥建议广大做SEO的朋友,坚持提供原创的优质内容,你的排名和权重自然会看到春天。

1、成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备(具体可查看马海祥博客《百度算法升级:将打击复制采集、超链作弊和冒充官网欺诈内容网站》的相关介绍)。

2、原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。

首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合。

其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页。

最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3、原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。

这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。

另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

五、如何做伪原创文章?

原创内容也不是万能的,很多朋友在做SEO的时候,完全是为了原创内容而做原创,想方设法自己去写,若是了解的还好,若是对行业不了解的,那写出来的参考价值性也会大打折扣,甚至有的做伪原创,打乱段落顺序,替换关键词等方法,只要影响了用户的阅读参考,就一样是垃圾内容。

下面马海祥就教大家如何去伪原创文章!方法如下:

1、加摘要

2、打乱段落的顺序

3、词语替换

4、插入注解信息

5、开头结尾加原创说明

6、图片替换法

7、加入相关文章!

看到这些方法,你肯定会问,那么哪一些对于搜索引擎会成为有效的呢?

第4个,即插入注解信息的,这一个方法,在某种程度上解,还是比较不错的,不过相似度还是很高的,当去掉重复的东西以后,就会有一个相似度了!相似度还是比较高的!

第5个,开头结尾加原创,这一个,可以在一定的程度上降低相似度,但比较费力!

第6个,图片替换法,这个方法不错,但如果图片过多,那么文字就会变得很少了!

第7个,加入相关文章,这个方法还是不错的!

因为在某种程度上讲,上面的这些方法可以较大能力的降低文章的相似度!但我还是期待大家能自己写出真正的文章!

马海祥博客点评:

虽说互联网大多都是泛滥采集,但依然有部分人坚持提供原创价值的内容,而搜索引擎对待这部分作者也是有特殊照顾的,若是辛辛苦苦写出来的原创,才刚发表就被别人采集去了,很容易打击作者的创作积极性的,在目前竞争激烈的互联网之中,只有让广大站长提供价值原创内容,才能让用户得到更好的体验。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于https://www.mahaixiang.cn/znseo/2221.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 百度   原创文章   原创方法   原创策略  

上一篇:借助百度平台合作策略来提升网站收录与排名
下一篇:落地页时间因子将直接影响网站收录、展示和排序结果

您可能还会对以下这些文章感兴趣!

  • 如何利用SEO技术设置文章网页标题

    SEO标题跟我们正文标题是完全不一样的,因为SEO标题的主要目的是为了做SEO优化而产生的,为了让用户在搜索引擎上面通过这个文章的想要表达的关键词搜索到,是为了引流而设置的标题,既然是为了SEO优化而作的,标题就不受字数的限制、不受语句通顺的限制、不受文章中心思……【查看全文

    阅读:2147关键词: seo技术   网页标题   文章标题   日期:2016-03-07
  • 网站导航的优化方法和设置技巧

    一说到网站导航,可能很多人的第一印象就是网站头部的那一排主导航栏,感觉没什么优化的必要。其实这是一个误区,网站导航不仅包括这个主导航,网站其它栏目、文章分类、当前的位置、返回首页、返回上一页等都是网站导航系统的一部分。凡是有助于方便用户浏览网站信息、……【查看全文

    阅读:3027关键词: 网站导航   优化方法   导航设置技巧   导航优化   网站优化技巧   日期:2013-11-08
  • 网站关键词的选择和优化设置技巧

    很多的站长打算建立一个新站之前,首先想的不是要先找关键词,而是先想着怎么上线,关键词等到网站上线正常之后,才慢慢的通过百度指数、下拉框、相关搜索及关键词查询工具进行寻找挑选,其实对于标准的新站SEO操作而言,这是一种大忌,尤其是现在搜索引挚普遍对新站都是非常……【查看全文

    阅读:6308关键词: 关键词   优化技巧   日期:2015-10-05
  • 怎样使用网站热点图优化网页布局设计?

    优秀网站都是通过细节性进行调整,在保持整体网站风格和样式,通过细微的差别体现出与众不同的方式,在网站结合热点图整合创意和设计,让网站跟访客形成良好的互动效果。有了热力图的科学依据,优化网页细节就可对症下药,避免了主观臆想和盲目改版,在点击行为集中和访……【查看全文

    阅读:1296关键词: 网站设计   热点图   网站优化   网页布局   网页设计   日期:2017-04-26
  • 数据库性能优化的方法

    一个数据库系统的生命周期可以分成:设计、开发和成品三个阶段,在设计阶段进行数据库性能优化的成本最低,收益最大,在成品阶段进行数据库性能优化的成本最高,收益最小。一个系统的性能的提高,不单单是试运行或者维护阶段的性能调优,也不单单是开发阶段的事情,而是……【查看全文

    阅读:10092关键词: 数据库   数据库性能   数据库优化   优化方法   日期:2014-09-21
  • 网站URL路径该如何做SEO优化

    搜索引擎作为一个程序,在互联网上抓取和识别网站唯一的标准就是:网站URL路径,我们想要把网站权重做起来,就要想办法让我们每一点权重集中起来,网站URL路径的优化就是网站路径的集权,通过把权重集中于一个主路径上,进而获取更好的搜索引擎的权重,路径优化是SEO优化的比……【查看全文

    阅读:5418关键词: 网站优化   seo优化   seo   日期:2015-08-12
  • 百度收录网站文章的现状及原则依据

    对于站长或SEO优化人员来说,如果给一个老站做关键词,只需要我们发一些高质量文章和一些外链就能带来很好的排名,网站前期的优化已经有人帮我们做完了。可如果我们做的是新站排名就十分困难,在我们设定好网站三大标签,设定好网站发展方向之后,首先就需要百度能收录网站的……【查看全文

    阅读:4770关键词: 百度收录   网站文章   百度收录现状   文章收录原则   文章收录依据   日期:2014-09-03
  • 新手站长该如何做网站结构优化

    一个好的网站架构,才能承担起SEO的排名,我们不仅要让用户对我们网站感兴趣,我们还需要让搜索引擎蜘蛛感兴趣,只有让搜索引擎蜘蛛感兴趣,才能经常来光顾我们的站点,才能收录我们的网站,这样我们的网站才能增强曝光率,合理的网站栏目结构,能正确表达网站的基本内容及其……【查看全文

    阅读:2478关键词: 网站结构   网站优化   日期:2016-01-21
  • 百度如何判断网站文章质量度的高与低

    百度搜索引擎为了提高互联网的良性发展,对搜索算法的更新也是日新月异,不断的推出搜索新算法,要求网站运营需要符合用户体验,给用户提供有价值的内容,新算法给站长们带来的影响是很大的,但最终目的也都是为了发掘更多的优质文章。在SEO优化行业流行着这么一句话:“……【查看全文

    阅读:1272关键词: 质量度   网站文章   百度   日期:2018-11-14
  • 网站跳出率的分析方法及优化技巧

    网站跳出率是指用户通过搜索引擎进行搜索关键词来到你的网站,只浏览了一个页面就离开与全部浏览数量的百分比。观察关键词的跳出率就可以得知用户对网站内容的认可,或者说你的网站是否对用户有吸引力,而网站的内容是否能够对用户有所帮助留住用户也直接可以在跳出率中……【查看全文

    阅读:1328关键词: 网站跳出率   跳出率   网站优化   日期:2016-03-25
  • 多年的老网站突然不收录的原因是什么?

    网站文章不收录是每一个站长都遇到过的问题之一,比如网站突然无缘无故就不收录了,或者是一些网站文章根本就不被收录。对于文章的不收录,我们首先要分为两种况,一种是新站,网站文章一直不收录;另一种是老站,突然之间网站停止了收录。如果你的网站也是老站,突然碰……【查看全文

    阅读:3345关键词: 网站不收录   不收录原因   网站收录   日期:2014-10-09
  • 从网站流量公式来看如何提升网站流量

    随着互联网的发展,出现了一群特殊的人,他们有一个共同的名字叫做“站长”,虽然他们各自经营的内容不一样,但是他们有一个共同的目标就是提升网站流量,只有提升流量才能提高网站的排名,从而创造效益。一个网站要想有更大的发展,首先要有流量,网站没有流量就没有人……【查看全文

    阅读:1004关键词: 网站流量   日期:2017-11-26
  • 独立博客网站该如何做站内SEO优化?

    从广义的角度来看,我这篇文章的本身也是一种SEO的手段:既然进行SEO的终极目的还是有人来看,那么作为博客主要构成的内容部分肯定才是最重要的,所以就有“内容为王”的说法,如果你的博客内容非常精彩,你也就没必要做SEO这么无聊的玩意儿了;要是你的博客不但惨淡而且无聊……【查看全文

    阅读:639关键词: 博客网站   站内seo   seo优化   网站seo   博客seo   seo   日期:2015-06-27
  • 论坛网站该如何做站内SEO优化

    众所周知,网站SEO优化对一个网站的发展与生存至关重要,论坛也是一样,现在很多站长选择用论坛建站,因为比较方便,只要建设起来有了一定人气,每天的工作只是很轻松的管理帖子和用户,不需要太多的文章编辑和内容更新。我看过很多的论坛,很多站长朋友并不懂SEO,也并……【查看全文

    阅读:682关键词: seo   论坛   网站优化   论坛优化   站内优化   站内seo   日期:2016-11-19
  • 文章质量的高低是否取决于文章内容的多少?

    一般用户在网上阅读内容时,注意力只能集中很短的时间。一般来说,读者在一个网站的文章里驻留的时间平均保持在96秒钟。这意味着你只有一分半钟的时间与读者沟通。因此,很多网站的经营者都会特意把内容的长度限制在扫几眼就能读懂的范围内,那么在网站里一篇文章的最佳……【查看全文

    阅读:1819关键词: 文章质量   高质量文章   低质量文章   文章内容   文章   日期:2014-05-16
  • 网页热力图对网站页面优化的帮助有哪些?

    热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地区,其特点是,可以显示不可点击区域发生的事情,你将发现访客经常会点击那些不是链接的地方,也许你应该在那个地方放置一个资源链接。比如如果你发现人们总是在点击某个产品图片,你能想到的是,他们也许……【查看全文

    阅读:1480关键词: 热力图   网站优化   页面优化   日期:2016-09-01
  • 新网站该如何打造用户喜欢的内容

    其实优质的网站内容,一定要站在用户的角度去思索,任何一个网站我们面对的真正客户就是活生生的实体他是人,如果你将文章针对搜索引擎,就意味着把人当机器了,这样你肯定写不出优质的文章,你的网站权重和排名肯定是在一个点上不断的徘徊,所以,发布用户喜欢的内容应……【查看全文

    阅读:810关键词: 新网站   网站内容   日期:2015-09-04
  • 大量重复URL被百度索引收录的解决方法

    最近,很多SEO有这样的疑惑:索引量工具显示索引量数值很高,但流量总也上不去,也没有发现我们站内有低质内容,对此,马海祥找到了导致索引量高流量低的一个原因,并给出的解决方法,URL参数也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题,他是网站运营中……【查看全文

    阅读:2071关键词: 百度索引   百度收录   日期:2015-07-05
  • 原创内容就一定是优质内容吗?

    原创内容就一定是优质内容吗?这个话题对博主或一些站长圈内的朋友来说,是一个老生常谈且百谈不厌的话题。随着搜索引擎算法不断的迭代更新、越来越智能化,对于优质内容的判断标准也是在不同阶段有不同的要求。现在很多站长或SEO人员一味的为了创造内容而创造内容,但又有多……【查看全文

    阅读:1429关键词: 原创内容   优质内容   日期:2017-12-12
  • 网站内部链接的策略规划

    当站长们都在讨论外链的时候,很少有人注意到内链的作用,内链就是网站的内部的相互链接,我认为内链的最主要的作用在于提高搜索引擎索引效率和用户体验,增加PV,除此之外,由于是自己的网站,内链容易控制,有助于PR的传递推动网站排名,对于知名站点的SEO而言主要精……【查看全文

    阅读:2615关键词: 网站内链   内部链接   链接策略   网站策略规划   日期:2012-08-14
↓ 点击查看更多 ↓

互联网更多>>

SEO优化 更多>>

开网店真的不需要成本吗? 如何通过正规的SEO优化手段提升新网站排名