马海祥博客 > SEO优化 > 站内SEO > 大量重复URL被百度索引收录的解决方法

大量重复URL被百度索引收录的解决方法

时间：2015-07-05 文章来源：马海祥博客访问次数：

最近，很多SEO有这样的疑惑：索引量工具显示索引量数值很高，但流量总也上不去，也没有发现我们站内有低质内容，百度这是要闹哪样呀？对此，马海祥找到了导致索引量高流量低的一个原因，并给出的解决方法。

大量重复URL被百度索引收录的解决方法-马海祥博客

首先声明，我们只谈论有检索意义的URL，也就是用户会从搜索引擎查找的页面，其他页面按照常用的方法做屏蔽就好了（具体可查看马海祥博客《如何处理网站中的无效页面》的相关介绍），鉴于很多站长都爱讨论整体的收录量，我必须泼一下冷水，也许你的有效收录是1/10。

1、URL参数

URL参数也叫URL query，是一个最复杂，最容易被忽视，最容易被妥协的问题，他是网站运营中必不可少的元素，如果简单的去除，其他部门就无法工作了，静态化是的话题，URL参数经常被用于以下几方面：

同一个实体的不同状态展示，比如同一个酒店，在不同时间点会有不同的房间库存，例如：http://www.mahaixiang.cn/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量，例如：http://www.mahaixiang.cn/?tracking=website_a

为了统计不同渠道，具体模块的点击量，例如：http://www.mahaixiang.cn/?tracking=website_a&click_spot=zone_abc

调试，例如：http://www.mahaixiang.cn/product/item123/?debug=true

全世界最奇葩的是亚马逊，居然把统计参数放到了路径中http://www.mahaixiang.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

出现这种问题的坏处有几点：

（1）、浪费搜索引擎对你网站的各项配额，从而影响其他正常的页面。

（2）、丢失很多本应拿到的链接加分，站外渠道的链接往往是最优质的，同一个URL的分值可能分散成几十份。

（3）、SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道，而且被收录被点击)。

（4）、往往形成一种局面，产品用一套URL，SEO用另一套URL，甚至不同渠道用不同的URL，后期开发和维护的成本极高。

为了解决这个问题，首先要弄清URL的定义，以马海祥的理解，每一个URL是一个静态的、独立不重复的、有意义的实体，一般也有检索意义(就是有人会搜)，比如一个人、一辆车、一条道路、一个零件，而不能混入各种“状态”，比如这个人生病的时候，难道就不是他自己了么？一件商品在促销的状态难道是另一件商品了么？

理论上canonical标签就可以解决这个问题了，但是从实际测试结果看，百度对这个标签的支持优先级非常低，几乎可以忽略不计，因此，马海祥博客建议的解决方案是这样的：

（1）、建立好网站的思维导图和元信息(具体可参考马海祥博客《实例解析丰富网页摘要的三大标记格式》的相关介绍)。

（2）、所有和SEO元信息相关的参数都放到路径中去。

（3）、所有和SEO元信息不相干的参数都放到#后边，因为#后边不影响web服务器返回的内容，简单的说就是用"#"替代"?"。

（4）、每个页面中都利用js获取#后边的参数对，通过二次请求发回给统计服务器。

（5）、如果#后边的参数影响页面内容，比如酒店的入住日期，那么这部分内容用ajax加载就行，他是不稳定的，不属于页面内容的一部分。(当然还有变通的办法，暂不赘述)

（6）、原始的#锚点定义肯定会冲突，定义一个#后边的变量，并用js控制屏幕滚动，来保证原始锚点的作用。

有人可能会想到，根据ua判断，如果是搜索引擎爬虫，就用跳转的方式去掉URL参数，但在马海祥看来，效率最高的方法必然是从一开始就不展示错误URL，那么前面的例子优化后就变成了：

同一个实体的不同状态展示，比如同一个酒店，在不同时间点会有不同的房间库存，例如：http://www.mahaixiang.cn/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量，例如：http://www.mahaixiang.cn/#tracking=website_a

为了统计不同渠道，具体模块的点击量，例如：http://www.mahaixiang.cn/#tracking=website_a&click_spot=zone_abc

调试，例如：http://www.mahaixiang.cn/product/item123/#debug=true

其实很多网站早就使用这种方式了，但是还有很多网站由于开发效率无法及时实现，所以，对于一般的小网站，一定要考虑开发成本，不要轻易冒进，只要能避免问题的发生，变通的方法是很多的。

2、路径中使用非必要元素

很多网站仿照亚马逊的做法，把商品名体现在URL中，然后再通过id来决定页面展示的内容，例如：http://www.mahaixiang.cn/博集典藏馆043?基督山伯爵-亚历山大?仲马/dp/B005TZHJEQ/

这样虽然可以提高一些相关性，但是很危险，在长期甚至短期的时间内，大量商品的名称是非常可能有变化的，那么URL也就跟着变化，成本也是非常高的，因为加大了技术实现难度，不管从站内还是站外，每次增加链接都是一个很麻烦的事情。

我曾接手一个网站，URL被全部改成了这样：http://www.mahaixiang.cn/Shangrila_International_Hotel-12345678-hotel/，对我早期的工作造成了非常巨大的负担。

通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次（具体可查看马海祥博客《301永久重定向的设置方法大全》的相关介绍），细致调查后发现，从SEO拼接规则到后台的汉字和翻译数据被一直修改，也就是说，这个URL相关的元素有：

（1）、中文(非必要元素)

（2）、由中文翻译的英文(非必要元素）

（3）、id(必要元素)

而当时负责SEO的同事把英文和id拼接在了URL中，那么这样一个URL先后变成过：

http://www.mahaixiang.cn/Shangrila_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/Xianggelila_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/XiangGeLiLa_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/Shangrila_guoji_Hotel-12345678-hotel/

跟“相关性”比，URL的唯一性和稳定性更重要，所以，针对这个问题，URL的最佳策略应该是：http://www.mahaixiang.cn/hotel/12345678/

如果这个id是隶属于一个分类下的，比如城市，那么就可以是：http://www.mahaixiang.cn/hotel/beijing/123/

从技术角度说，id一般是数据库的primary key，可以是数字也可以是字符串，那么这个时候URL是一维的；id也可以是联合的唯一索引，那么URL就是二维的，就像上面的(bejing，123)缺一不可，电商类网站列表页经常用到三维以上。

3、URL中的字母建议全部小写

如果网站的技术架构用的是开源系统，一般是不会有这个问题的，如果使用了微软的技术架构，这个问题非常常见：

http://www.mahaixiang.cn/newyork/

http://www.mahaixiang.cn/Newyork/

http://www.mahaixiang.cn/NewYork/

我的建议是统一使用小写，大写自动跳转为小写(小心301死循环)。

URL中字母全部小写主要有两个好处：

（1）、全部使用小写方便用户输入，不会因为大小写混搭导致用户输写错误。

（2）、当我们写robots文件代码时，其也是区分大小写的，往往一个字母之差可能就导致整个目录不能被搜索引擎收录。

4、目录的规范

很多网站同时存在这样的URL，无形中把收录量扩大了一倍：

http://www.mahaixiang.cn/product/123

http://www.mahaixiang.cn/product/123/

上边第一个路径的意思是在product目录下有一个123文件，第二个路径的意思是在product目录下有一个123目录，这个目录下可能有很多文件，但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件，为了避免歧义，我定义文件都是用".html"结尾的。

为了减少重复收录，那么按我的习惯是：

http://www.mahaixiang.cn/product/123 => http://www.mahaixiang.cn/product/123/

http://www.mahaixiang.cn/product/123 => http://www.mahaixiang.cn/product/123.html

简单的来说，就是以下几点：

（1）、所有部门统一使用SEO定义的URL，屏蔽非SEO优化URL的入口。

（2）、用“#”替代“?”。

（3）、统一使用小写。

（4）、保证目录的规范，把不规范的URL跳转到规范的URL。

5、URL尽量使用静态化处理

现在的网站绝大多数是使用数据库进行驱动的，页面是由程序实时生成，而不是真的在服务器上有一个静态HTML文件存在，当用户访问一个网址时，程序根据URL中的参数调用数据库数据，实时生成页面内容，因此，动态页面相对应的URL原始状态也是动态的，其中包含了问号、等号及参数，这就造成了搜索引擎收录困难，所以，如果没有什么特殊原因的话，尽量对URL做静态化处理。

6、URL层级不要超过三层

这个我在马海祥博客《如何以SEO的角度来优化网站的URL连接地址》一中已经说明原因了，这里就不再重复了，当然，这里说的URL层级不超过三层说的是那些中小型网站，如果你的网站是大型网站那就不在这个控制范围内了，因为搜索引擎把一些大型网站的频道页也当成一个单独的种子站点来处理了，搜索引擎就会在这个频道页再深度爬取三层，也就是说，一些大型网站的频道页就相当于我们一个个人网站了。

7、URL尽量越短越好

这个主要是站在用户的角度考虑了，因为URL越短，代表用户就越方便记忆，用户看起来也没有那么费事，相对于搜索引擎来说，只要我们控制好URL长度不超过1000字母，那搜索引擎收录起来是完全没有问题的。

马海祥博客点评：

当我们在设计URL时，将关键词放入URL中也是优化的一个点，其作用就是：提高页面相关性，在排名时贡献一点分数，关键词出现得越靠前越好，也就是说在域名中最好，其次是出现在目录中，效果最小的是出现在文件名中，不过切记不可为了出现关键词而用作弊的手法进行关键词堆砌。

本文发布于马海祥博客文章，如想转载，请注明原文网址摘自于https://www.mahaixiang.cn/znseo/1217.html，注明出处；否则，禁止转载；谢谢配合！

相关标签搜索： 百度收录百度索引

上一篇：独立博客网站该如何做站内SEO优化？
下一篇：网站页面代码该如何做SEO优化

您可能还会对以下这些文章感兴趣！

新网站该如何打造用户喜欢的内容

其实优质的网站内容，一定要站在用户的角度去思索，任何一个网站我们面对的真正客户就是活生生的实体他是人，如果你将文章针对搜索引擎，就意味着把人当机器了，这样你肯定写不出优质的文章，你的网站权重和排名肯定是在一个点上不断的徘徊，所以，发布用户喜欢的内容应……【查看全文】

阅读：810关键词：新网站网站内容 日期：2015-09-04
数据库性能优化的方法

一个数据库系统的生命周期可以分成：设计、开发和成品三个阶段，在设计阶段进行数据库性能优化的成本最低，收益最大，在成品阶段进行数据库性能优化的成本最高，收益最小。一个系统的性能的提高，不单单是试运行或者维护阶段的性能调优，也不单单是开发阶段的事情，而是……【查看全文】

阅读：10092关键词：数据库数据库性能数据库优化优化方法 日期：2014-09-21
论坛网站该如何做站内SEO优化

众所周知，网站SEO优化对一个网站的发展与生存至关重要，论坛也是一样，现在很多站长选择用论坛建站，因为比较方便，只要建设起来有了一定人气，每天的工作只是很轻松的管理帖子和用户，不需要太多的文章编辑和内容更新。我看过很多的论坛，很多站长朋友并不懂SEO，也并……【查看全文】

阅读：682关键词： seo 论坛网站优化论坛优化站内优化站内seo 日期：2016-11-19
原创内容就一定是优质内容吗？

原创内容就一定是优质内容吗？这个话题对博主或一些站长圈内的朋友来说，是一个老生常谈且百谈不厌的话题。随着搜索引擎算法不断的迭代更新、越来越智能化，对于优质内容的判断标准也是在不同阶段有不同的要求。现在很多站长或SEO人员一味的为了创造内容而创造内容，但又有多……【查看全文】

阅读：1429关键词：原创内容优质内容 日期：2017-12-12
多年的老网站突然不收录的原因是什么？

网站文章不收录是每一个站长都遇到过的问题之一，比如网站突然无缘无故就不收录了，或者是一些网站文章根本就不被收录。对于文章的不收录，我们首先要分为两种况，一种是新站，网站文章一直不收录；另一种是老站，突然之间网站停止了收录。如果你的网站也是老站，突然碰……【查看全文】

阅读：3345关键词：网站不收录不收录原因网站收录 日期：2014-10-09
网站关键词的选择和优化设置技巧

很多的站长打算建立一个新站之前，首先想的不是要先找关键词，而是先想着怎么上线，关键词等到网站上线正常之后，才慢慢的通过百度指数、下拉框、相关搜索及关键词查询工具进行寻找挑选，其实对于标准的新站SEO操作而言，这是一种大忌，尤其是现在搜索引挚普遍对新站都是非常……【查看全文】

阅读：6308关键词：关键词优化技巧 日期：2015-10-05
文章质量的高低是否取决于文章内容的多少？

一般用户在网上阅读内容时，注意力只能集中很短的时间。一般来说，读者在一个网站的文章里驻留的时间平均保持在96秒钟。这意味着你只有一分半钟的时间与读者沟通。因此，很多网站的经营者都会特意把内容的长度限制在扫几眼就能读懂的范围内，那么在网站里一篇文章的最佳……【查看全文】

阅读：1819关键词：文章质量高质量文章低质量文章文章内容文章 日期：2014-05-16
网站内部链接的策略规划

当站长们都在讨论外链的时候，很少有人注意到内链的作用，内链就是网站的内部的相互链接，我认为内链的最主要的作用在于提高搜索引擎索引效率和用户体验，增加PV，除此之外，由于是自己的网站，内链容易控制，有助于PR的传递推动网站排名，对于知名站点的SEO而言主要精……【查看全文】

阅读：2615关键词：网站内链内部链接链接策略网站策略规划 日期：2012-08-14
网站URL路径该如何做SEO优化

搜索引擎作为一个程序，在互联网上抓取和识别网站唯一的标准就是：网站URL路径，我们想要把网站权重做起来，就要想办法让我们每一点权重集中起来，网站URL路径的优化就是网站路径的集权，通过把权重集中于一个主路径上，进而获取更好的搜索引擎的权重，路径优化是SEO优化的比……【查看全文】

阅读：5418关键词：网站优化 seo优化 seo 日期：2015-08-12
怎样使用网站热点图优化网页布局设计？

优秀网站都是通过细节性进行调整，在保持整体网站风格和样式，通过细微的差别体现出与众不同的方式，在网站结合热点图整合创意和设计，让网站跟访客形成良好的互动效果。有了热力图的科学依据，优化网页细节就可对症下药，避免了主观臆想和盲目改版，在点击行为集中和访……【查看全文】

阅读：1296关键词：网站设计热点图网站优化网页布局网页设计 日期：2017-04-26
网页热力图对网站页面优化的帮助有哪些？

热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地区，其特点是，可以显示不可点击区域发生的事情，你将发现访客经常会点击那些不是链接的地方，也许你应该在那个地方放置一个资源链接。比如如果你发现人们总是在点击某个产品图片，你能想到的是，他们也许……【查看全文】

阅读：1480关键词：热力图网站优化页面优化 日期：2016-09-01
百度收录网站文章的现状及原则依据

对于站长或SEO优化人员来说，如果给一个老站做关键词，只需要我们发一些高质量文章和一些外链就能带来很好的排名，网站前期的优化已经有人帮我们做完了。可如果我们做的是新站排名就十分困难，在我们设定好网站三大标签，设定好网站发展方向之后，首先就需要百度能收录网站的……【查看全文】

阅读：4770关键词：百度收录网站文章百度收录现状文章收录原则文章收录依据 日期：2014-09-03
从网站流量公式来看如何提升网站流量

随着互联网的发展，出现了一群特殊的人，他们有一个共同的名字叫做“站长”，虽然他们各自经营的内容不一样，但是他们有一个共同的目标就是提升网站流量，只有提升流量才能提高网站的排名，从而创造效益。一个网站要想有更大的发展，首先要有流量，网站没有流量就没有人……【查看全文】

阅读：1004关键词：网站流量 日期：2017-11-26
百度如何判断网站文章质量度的高与低

百度搜索引擎为了提高互联网的良性发展，对搜索算法的更新也是日新月异，不断的推出搜索新算法，要求网站运营需要符合用户体验，给用户提供有价值的内容，新算法给站长们带来的影响是很大的，但最终目的也都是为了发掘更多的优质文章。在SEO优化行业流行着这么一句话：“……【查看全文】

阅读：1272关键词：质量度网站文章百度 日期：2018-11-14
网站导航的优化方法和设置技巧

一说到网站导航，可能很多人的第一印象就是网站头部的那一排主导航栏，感觉没什么优化的必要。其实这是一个误区，网站导航不仅包括这个主导航，网站其它栏目、文章分类、当前的位置、返回首页、返回上一页等都是网站导航系统的一部分。凡是有助于方便用户浏览网站信息、……【查看全文】

阅读：3027关键词：网站导航优化方法导航设置技巧导航优化网站优化技巧 日期：2013-11-08
独立博客网站该如何做站内SEO优化？

从广义的角度来看，我这篇文章的本身也是一种SEO的手段：既然进行SEO的终极目的还是有人来看，那么作为博客主要构成的内容部分肯定才是最重要的，所以就有“内容为王”的说法，如果你的博客内容非常精彩，你也就没必要做SEO这么无聊的玩意儿了；要是你的博客不但惨淡而且无聊……【查看全文】

阅读：639关键词：博客网站站内seo seo优化网站seo 博客seo seo 日期：2015-06-27
如何利用SEO技术设置文章网页标题

SEO标题跟我们正文标题是完全不一样的，因为SEO标题的主要目的是为了做SEO优化而产生的，为了让用户在搜索引擎上面通过这个文章的想要表达的关键词搜索到，是为了引流而设置的标题，既然是为了SEO优化而作的，标题就不受字数的限制、不受语句通顺的限制、不受文章中心思……【查看全文】

阅读：2147关键词： seo技术网页标题文章标题 日期：2016-03-07
新手站长该如何做网站结构优化

一个好的网站架构，才能承担起SEO的排名，我们不仅要让用户对我们网站感兴趣，我们还需要让搜索引擎蜘蛛感兴趣，只有让搜索引擎蜘蛛感兴趣，才能经常来光顾我们的站点，才能收录我们的网站，这样我们的网站才能增强曝光率，合理的网站栏目结构，能正确表达网站的基本内容及其……【查看全文】

阅读：2478关键词：网站结构网站优化 日期：2016-01-21
大量重复URL被百度索引收录的解决方法

最近，很多SEO有这样的疑惑：索引量工具显示索引量数值很高，但流量总也上不去，也没有发现我们站内有低质内容，对此，马海祥找到了导致索引量高流量低的一个原因，并给出的解决方法，URL参数也叫URL query，是一个最复杂，最容易被忽视，最容易被妥协的问题，他是网站运营中……【查看全文】

阅读：2071关键词：百度索引百度收录 日期：2015-07-05
网站跳出率的分析方法及优化技巧

网站跳出率是指用户通过搜索引擎进行搜索关键词来到你的网站，只浏览了一个页面就离开与全部浏览数量的百分比。观察关键词的跳出率就可以得知用户对网站内容的认可，或者说你的网站是否对用户有吸引力，而网站的内容是否能够对用户有所帮助留住用户也直接可以在跳出率中……【查看全文】

阅读：1328关键词：网站跳出率跳出率网站优化 日期：2016-03-25

↓ 点击查看更多 ↓

热点推荐

互联网更多>>

盘点2010年代这10年的重大网络安全事件二十一世纪的第2个十年即将过去，在过去十年里有很多的重大网络安全事件发生，我们见证了过去十年，大量的数据……
移动互联网的后时代是小程序互联网吗？中国移动互联网经历过去 10 年发展，近乎完美地将十亿计用户使用习惯培养起来，尤其是消费互联网，更是被开垦成……
如何收集和存储服务器运营的数据随着数据的逐步完善和开放，互联网和企业都将建立起完善的大数据服务基础架构及商业化模式，从数据的存储、挖……

网络营销更多>>

如何改进移动端的竞价推广效果？	情感营销的定位、作用和弊端
关于网络社交媒体营销的一些建议	什么样的人做微信营销推广才能赚到钱？