马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > 站内SEO > 大量重复URL被百度索引收录的解决方法

大量重复URL被百度索引收录的解决方法

时间:2015-07-05   文章来源:马海祥博客   访问次数:

最近,很多SEO有这样的疑惑:索引量工具显示索引量数值很高,但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样呀?对此,马海祥找到了导致索引量高流量低的一个原因,并给出的解决方法。

大量重复URL被百度索引收录的解决方法-马海祥博客

首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面,其他页面按照常用的方法做屏蔽就好了(具体可查看马海祥博客《如何处理网站中的无效页面》的相关介绍),鉴于很多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有效收录是1/10。

1、URL参数

URL参数也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题,他是网站运营中必不可少的元素,如果简单的去除,其他部门就无法工作了,静态化是的话题,URL参数经常被用于以下几方面:

同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存,例如:http://www.mahaixiang.cn/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量,例如:http://www.mahaixiang.cn/?tracking=website_a

为了统计不同渠道,具体模块的点击量,例如:http://www.mahaixiang.cn/?tracking=website_a&click_spot=zone_abc

调试,例如:http://www.mahaixiang.cn/product/item123/?debug=true

全世界最奇葩的是亚马逊,居然把统计参数放到了路径中http://www.mahaixiang.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

出现这种问题的坏处有几点:

(1)、浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。

(2)、丢失很多本应拿到的链接加分,站外渠道的链接往往是最优质的,同一个URL的分值可能分散成几十份。

(3)、SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)。

(4)、往往形成一种局面,产品用一套URL,SEO用另一套URL,甚至不同渠道用不同的URL,后期开发和维护的成本极高。

为了解决这个问题,首先要弄清URL的定义,以马海祥的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜),比如一个人、一辆车、一条道路、一个零件,而不能混入各种“状态”,比如这个人生病的时候,难道就不是他自己了么?一件商品在促销的状态难道是另一件商品了么?

理论上canonical标签就可以解决这个问题了,但是从实际测试结果看,百度对这个标签的支持优先级非常低,几乎可以忽略不计,因此,马海祥博客建议的解决方案是这样的:

(1)、建立好网站的思维导图和元信息(具体可参考马海祥博客《实例解析丰富网页摘要的三大标记格式》的相关介绍)。

(2)、所有和SEO元信息相关的参数都放到路径中去。

(3)、所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容,简单的说就是用"#"替代"?"。

(4)、每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器。

(5)、如果#后边的参数影响页面内容,比如酒店的入住日期,那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述)

(6)、原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL参数,但在马海祥看来,效率最高的方法必然是从一开始就不展示错误URL,那么前面的例子优化后就变成了:

同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存,例如:http://www.mahaixiang.cn/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

为了统计不同渠道的流量,例如:http://www.mahaixiang.cn/#tracking=website_a

为了统计不同渠道,具体模块的点击量,例如:http://www.mahaixiang.cn/#tracking=website_a&click_spot=zone_abc

调试,例如:http://www.mahaixiang.cn/product/item123/#debug=true

其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现,所以,对于一般的小网站,一定要考虑开发成本,不要轻易冒进,只要能避免问题的发生,变通的方法是很多的。

2、路径中使用非必要元素

很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容,例如:http://www.mahaixiang.cn/博集典藏馆043?基督山伯爵-亚历山大?仲马/dp/B005TZHJEQ/

这样虽然可以提高一些相关性,但是很危险,在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化,成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。

我曾接手一个网站,URL被全部改成了这样:http://www.mahaixiang.cn/Shangrila_International_Hotel-12345678-hotel/,对我早期的工作造成了非常巨大的负担。

通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(具体可查看马海祥博客《301永久重定向的设置方法大全》的相关介绍),细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改,也就是说,这个URL相关的元素有:

(1)、中文(非必要元素)

(2)、由中文翻译的英文(非必要元素)

(3)、id(必要元素)

而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:

http://www.mahaixiang.cn/Shangrila_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/Xianggelila_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/XiangGeLiLa_International_Hotel-12345678-hotel/

http://www.mahaixiang.cn/Shangrila_guoji_Hotel-12345678-hotel/

跟“相关性”比,URL的唯一性和稳定性更重要,所以,针对这个问题,URL的最佳策略应该是:http://www.mahaixiang.cn/hotel/12345678/

如果这个id是隶属于一个分类下的,比如城市,那么就可以是:http://www.mahaixiang.cn/hotel/beijing/123/

从技术角度说,id一般是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的;id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可,电商类网站列表页经常用到三维以上。

3、URL中的字母建议全部小写

如果网站的技术架构用的是开源系统,一般是不会有这个问题的,如果使用了微软的技术架构,这个问题非常常见:

http://www.mahaixiang.cn/newyork/

http://www.mahaixiang.cn/Newyork/

http://www.mahaixiang.cn/NewYork/

我的建议是统一使用小写,大写自动跳转为小写(小心301死循环)。

URL中字母全部小写主要有两个好处:

(1)、全部使用小写方便用户输入,不会因为大小写混搭导致用户输写错误。

(2)、当我们写robots文件代码时,其也是区分大小写的,往往一个字母之差可能就导致整个目录不能被搜索引擎收录。

4、目录的规范

很多网站同时存在这样的URL,无形中把收录量扩大了一倍:

http://www.mahaixiang.cn/product/123

http://www.mahaixiang.cn/product/123/

上边第一个路径的意思是在product目录下有一个123文件,第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件,为了避免歧义,我定义文件都是用".html"结尾的。

为了减少重复收录,那么按我的习惯是:

http://www.mahaixiang.cn/product/123  => http://www.mahaixiang.cn/product/123/

http://www.mahaixiang.cn/product/123  => http://www.mahaixiang.cn/product/123.html

简单的来说,就是以下几点:

(1)、所有部门统一使用SEO定义的URL,屏蔽非SEO优化URL的入口。

(2)、用“#”替代“?”。

(3)、统一使用小写。

(4)、保证目录的规范,把不规范的URL跳转到规范的URL。

5、URL尽量使用静态化处理

现在的网站绝大多数是使用数据库进行驱动的,页面是由程序实时生成,而不是真的在服务器上有一个静态HTML文件存在,当用户访问一个网址时,程序根据URL中的参数调用数据库数据,实时生成页面内容,因此,动态页面相对应的URL原始状态也是动态的,其中包含了问号、等号及参数,这就造成了搜索引擎收录困难,所以,如果没有什么特殊原因的话,尽量对URL做静态化处理。

6、URL层级不要超过三层

这个我在马海祥博客《如何以SEO的角度来优化网站的URL连接地址》一中已经说明原因了,这里就不再重复了,当然,这里说的URL层级不超过三层说的是那些中小型网站,如果你的网站是大型网站那就不在这个控制范围内了,因为搜索引擎把一些大型网站的频道页也当成一个单独的种子站点来处理了,搜索引擎就会在这个频道页再深度爬取三层,也就是说,一些大型网站的频道页就相当于我们一个个人网站了。

7、URL尽量越短越好

这个主要是站在用户的角度考虑了,因为URL越短,代表用户就越方便记忆,用户看起来也没有那么费事,相对于搜索引擎来说,只要我们控制好URL长度不超过1000字母,那搜索引擎收录起来是完全没有问题的。

马海祥博客点评:

当我们在设计URL时,将关键词放入URL中也是优化的一个点,其作用就是:提高页面相关性,在排名时贡献一点分数,关键词出现得越靠前越好,也就是说在域名中最好,其次是出现在目录中,效果最小的是出现在文件名中,不过切记不可为了出现关键词而用作弊的手法进行关键词堆砌。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/znseo/1217.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 百度收录   百度索引  

上一篇:独立博客网站该如何做站内SEO优化?
下一篇:网站页面代码该如何做SEO优化

您可能还会对以下这些文章感兴趣!

  • 怎样迅速提升网站着陆页的转化率?

    对于网站的“着陆页”,大多数做网络推广的人应该并不陌生,特别是对于一些做付费推广的网站,着陆页的转化率将直接决定推广的效果和网站的销售额,激烈的竞争使得企业获得潜在客户的成本也在不断增加,通过大量营销投入而吸引来的潜在客户如果在着陆页面不能留住并转化……【查看全文

    阅读:1382关键词: 着陆页   转化率   日期:2017-01-06
  • 网站内的老文章如何才能让百度重新收录?

    关于新网站内容不能及时被百度收录的问题,可以说是一种比较常见的现像,但已经具备了一定权重的老网站,如果所发布的文章,不能被百度收录,则很有可能是网站有问题,或者文章内容有问题了。如果大家想一下,有一些具备高权重的站点,很少发布原创文章,但收录和排名一……【查看全文

    阅读:1987关键词: 网站文章   百度收录   日期:2017-03-16
  • 大量重复URL被百度索引收录的解决方法

    最近,很多SEO有这样的疑惑:索引量工具显示索引量数值很高,但流量总也上不去,也没有发现我们站内有低质内容,对此,马海祥找到了导致索引量高流量低的一个原因,并给出的解决方法,URL参数也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题,他是网站运营中……【查看全文

    阅读:1853关键词: 百度索引   百度收录   日期:2015-07-05
  • 未来的站内SEO优化需要做些什么?

    SEO说难不难,说简单也不是那么简单,很多人问我,站内SEO优化该怎么做?但当我讲出来的时候,他们又觉得:就这些?不可能就这么点内容吧!其实现在的站内SEO真的没有多少内容,更多的是细节处理和用户体验度的把握,有些朋友认为站内优化很难,因为他们没有摸清里面的……【查看全文

    阅读:870关键词: seo   站内seo   seo优化   日期:2016-07-10
  • 怎样才能让刚发布的文章都被百度秒收?

    我们做站长的都希望自己写的文章,能被百度快速收录,最好是秒收录。然而有一个很残酷的现实是,新站和低权重的站点是很难实现的,即使是原创的文章也会经常是几星期几个月才放出来。当然了,也并不是我们新站就毫无机会,关键还是得掌握些技巧。大家都知道蜘蛛喜欢新鲜……【查看全文

    阅读:1483关键词: 文章   百度   日期:2017-12-21
  • 采集文章内容对网站有哪些坏处

    网站搭建以后,我们就要丰富网站的内容,提高网站的吸引力,网站内容文章完全写原创文章也是不现实的,浪费精力不说,主要是短时间内无法完成。我们都想在最短的时间内让网站带来流量,创造利益,于是乎,我们便想到了文章采集。如今的搜索引擎,我们都知道“内容为王”……【查看全文

    阅读:73关键词: 采集   文章内容   网站   日期:2018-07-31
  • 解读网站内容更新的7种内容策略

    什么是内容,内容就是在你的网站上有用户想要的信息,它不仅仅只是文字,甚至有能够只是一个小图片也可以。就好比对于一个视频网站来说,视频就是内容;对于购物网站来说,商品就是内容;对于设计网站来说,风格设计就是内容等。内容它不一定就是同等于文字。只不过从我们SEO……【查看全文

    阅读:2732关键词: 网站内容   内容更新   内容策略   网站更新   日期:2014-04-28
  • 站内SEO优化到底要做哪些工作?

    有很多站长一直说在SEO,结果到头来还是不知道站内优化主要是做哪些工作?如果你要问站内优化有 哪些?简单的说,站内优化要主要的地方有:三个标签(title、keyword、discretion)、三个导航(主导航、次导航、位置导航就是面包屑导航)、url(标准化,静态化,绝对地……【查看全文

    阅读:2518关键词: 站内seo   seo优化   站内优化   seo工作   seo   日期:2016-08-13
  • 网站如何通过内容中心页将主题集群获得更多的流量

    大多数内容中心的页面看起来跟普通页面没有什么差别,但其实暗藏玄机。本文将跟“内容中心页面”在SEO中所起的作用,以及教大家如何创建一个优质的的内容中心页,更好为网站引流。要注意的是,内容中心页并不适合所有情景,如果你的站点是关于一个广泛的主题(如体育),那么就有足够的子主题来创建多个内容中心页。而对于局限性很大主题内容内容则最好不要采用这种方式。内容中心页的作用不仅使内容组织更简洁和高效,对SEO也有很大的好处……【查看全文

    阅读:22关键词: 网站流量   主题集群   日期:2020-04-06
  • 如何以SEO的角度来优化网站的URL连接地址

    大部分网站的URL命名规则是“根域名+栏目+文章页面”,也有一部分网站的URL命名规则是“根域名+文章页面”,其中能够产生变数的多半在于文章页面的命名规则上,有很多的朋友可能会注意到自己的命名规则是不太合理的,那么什么样的URL命名规则比较利于搜索引擎抓取呢?……【查看全文

    阅读:6151关键词: seo   seo优化   网站优化   网站地址   日期:2015-01-07
↓ 点击查看更多 ↓

互联网更多>>

  • 移动互联网是什么意思? 移动互联网是什么意思? 移动互联网就是将移动通信和互联网二者结合起来成为一体,是指互联网的技术、平台、商业模式和应用与移动通信……
  • 互联网思维究竟是一种什么样的思维? 互联网思维究竟是一种什么样的思维? 但凡做企业的,不管是创业的还是在互联网冲击下转型升级的传统行业企业家,“互联网思维”已经成为了大家共同……
  • 计算机的开机启动原理 计算机的开机启动原理 计算机从打开电源到开始操作,整个启动可以说是一个非常复杂的过程。总体来说,计算机的整个启动过程分成四个……

SEO优化 更多>>

医疗行业开展品牌推广急需解决的10大问题 如何以一个用户的角度来做企业门户网站