马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 揭秘百度统计和Google Analytics的工作原理

揭秘百度统计和Google Analytics的工作原理

时间:2012-10-10   文章来源:www.mahaixiang.cn   访问次数:

相信做个seo的,或者自己已经是站长的,都或多或少的对自己负责的站做个数据分析,要想了解自己网站的情况,就必须要牵涉到流量统计软件了,目前大家用到的流量统计软件也各不相同。而每个流量统计软件统计数据也都是有差异的,而且差异非常大,其根本原因在于数据统计的原理和机制是不同的。下面我们就针对google和百度这2个比较大的搜索引擎自身推出的Google Analytics与百度统计做个系统的原理分析,来看下究竟是什么原因导致的同样的网站可统计的流量却不同的真正原因:

揭秘百度统计和Google Analytics的工作原理

百度统计的工作原理分析

百度统计提供的JS,实质上是往页面中引入hm.baidu.com/h.js的这段代码,该代码的内容会根据后面的参数有所不同,h.js?后面的参数就是你在百度统计里的id。

获取该h.js代码的同时,百度统计会往你的浏览器写入一个名字为“HMACCOUNT”的cookie,该cookie的过期时间为2038年,所以只要你没有清空浏览器cookie,基本就永不过期。

h.js被下载后,便执行其脚本获取一些浏览器相关信息和访问来源,获取的信息包括屏幕尺寸、颜色深度、flash版本、用户语言等。

从js代码中可以得到,所有参数包括这些:“cc,cf,ci,ck,cl,cm,cp,cw,ds,ep,et,fl,ja,ln,lo,lt,nv,rnd,sb,se,si,st,su,sw,sse,v”。这些参数的意义大致如下:

cc: 不知道,一般为1

cf:url参数hmsr的值

ci:url参数hmci的值

ck:是否支持cookie 1:0

cl:颜色深度 如 “32-bit”

cm:url参数hmmd的值

cp:url参数hmpl的值

cw:url参数hmkw的值

ds:屏幕尺寸,如 ’1024×768′

ep:初始值为’0′,时间变量,反映页面停留时间,格式大概是:现在时间-载入时间+“,”+另一个很小的时间值

et:初始值为’0′,如果ep时间变量不是0的话,它会变成其他

fl:flash版本

ja:java支持 1:0

ln:语言 zh-cn

lo: 不知道,一般为0

lt:日期 time.time(),如“1327847756”,在首次请求没有

nv: 不知道,一般为1或者0

rnd:十位随机数字

sb:如果是360se浏览器该值等于‘17’

se: 和搜索引擎相关

si:统计代码id

st:

su:上一页document.referrer

sw: 不知道,估计和搜索引擎有关,一般为空

sse:不知道,估计和搜索引擎有关,一般为空

v:统计代码的版本 ,目前该值为“1.0.17”

当这些参数都设置完毕了(有些参数并没有赋值),筛选出已经赋值了的参数,并作为hm.baidu.com/hm.gif的参数拼凑出一个url,如:http://hm.baidu.com/hm.gif?cc=1&ck=1&cl=32-bit&ds=1366×768&ep=0&et=0&fl=11.0&ja=1&ln=zh-cn。然后请求该图片。

百度统计服务端,通过接收到这个请求,并从这个图片的网址附带的参数获取相关信息,记录访客访问记录;当页面被用户关闭的时候,同样会触发一次请求hm.gif的过程,但这个过程不是所有浏览器和所有关闭动作都支持。

使用使用Wireshark(一款网络抓包工具)测试可以发现,浏览器总共向服务器端发送了4次请求:

请求一段js脚本。

加载完毕时候出发一次请求,并传递参数

退出页面时候,发出一次请求,并传递参数,与上面对比,发现ep参数有变化。

百度统计是基于cookie的,当请求js脚本的时候,会在你电脑里保存一个永久cookie,该cookie作为你的用户标识。同时发现,但退出时候参 数ep从最开始的0变为了“7289%2C115”,转义后是“7289,115”这是两个毫秒单位,即7.2秒和0.1秒的意思。同时前两次请求 hm.gif的时候lt参数(时间,javascript:(new Date).getTime())是不变的。rnd随机数每次都变。

Google Analytics的工作原理

当用户访问了一个包含Google Analytics统计代码的页面,这段代码会被用户的浏览器执行,而这段代码的作用就是用来收集这位访客的信息,比如浏览页面的URL、浏览器类型、操作系统、系统语言、屏幕分辨率等。

当访问者访问带有Google Analyitcs追踪代码的页面时,GoogleAnalyitcs就会发回这样一条数据给Google服务器。此条数据中包含了Google Analyitcs所追踪到的访问者信息。如下图:
Google Analyitcs追踪代码

utmwv=4.6.5 Google Analyitcs追踪代码的版本。

&utmn=213-1698-805 utm.gif的唯一ID编号,防止GIF图像缓存。

&utmhn=你的域名 用户访问的主机名。

&utmcs=UTF-8 用户浏览器语言编码。

&utmsr=1152×864 用户屏幕分辨率。

&utmsc=32-bit 用户的屏幕颜色。

&utmul=en-us 用户浏览器语言设置。

&utmje=0 用户浏览器是否支持JAVA。

&utmfl=10.0%20r42 Flash的版本。

&utmdt=%E8%93%9D%E9%B2%B8%E7%9A%84Web%20Analytics%E7%AC%94%E8%AE%B0 当前网页的标题,在这里是经过编码的字符串。

&utmhid=1987-124-655

&utmr=0 推介链接的URL。

&utmp=%2F 当前页面产生的请求。

&utmac=UA-12347890-1 用户Google Analytics

以上都是Cookie里存储的数据,__utma用来分析唯一用户,访问次数,停留时间,新访或回访等等。__utmz用来记录流量来源。__utmv存储细分用户所定义的值。

如果开通了电子商务追踪功能或是自定义了事件追踪。那么还会包含以下内容:

&utme 事件追踪数据

&utmipc 用户购买的产品编号

&utmipn用户购买的产品名称

&utmipr 用户购买的产品单价

&utmtsp 运费

&utmttx 税款

GA统计代码随后将这些访客信息存储到Cookie中,Cookie是一段短小的文本,存放于本地,与访问的网站相关联,它被用来判断一个用户是初次访问还是多次访问,页面的推荐来源和随后的页面浏览信息等。

最后,所有的被收集到的信息会被发送到Google Analytics的数据服务器上。这个过程比较巧妙,我们知道服务器的日志文件会记录每一次的文件请求信息,而Google Analytics收集数据的方式便是通过向服务器请求一个透明的1×1的GIF图片文件,这个文件请求以及请求时间会在服务器日志中被记录,而文件请求 信息包含了GA统计代码收集的数据和Cookie信息,这样,每当这个GIF图片收到请求申请时,访客的访问信息就会被Google Analytics数据服务器收集。

不过Google Analytics只是发送一张gif请求,很多时候会发送多张gif请求。假如有一个gif图片无法统计,那么GA会发送其他gif请求,

网站分析大师Avinash曾经说过只要数据有90%的准确度,那么就可以及时采取行动了。重要的是能够看出趋势,进而采取行动,然后进行测试,不断地优化。由此可见数据的分析,在我们网站的发展、提升中是多么大的作用。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/seoyjy/123.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 工作原理   百度统计   Google Analy  

上一篇:如何正确设置多样性的404页面?
下一篇:揭秘搜索引擎中的反SEO作弊研究

您可能还会对以下这些文章感兴趣!

  • 影响搜索引擎算法和SEO优化的139个相关因素

    众所周知,网站优化是随着搜索引擎算法的升级不断的探索和寻求效果的优化推广方式,对于网站的SEO优化,也是SEO技术不断提升的一个过程,随着搜索引擎的算法在不断的完善,网站的竞争应该会趋向于网站的内容,网站的内容越好,那么跳出率就不会高,排名也会比较的靠前,……【查看全文

    阅读:907关键词: 搜索引擎   搜索引擎算法   seo优化   seo因素   seo   日期:2014-07-31
  • 详解搜索引擎的高级搜索语法指令

    作为一名SEOer,我们不但要学SEO的技巧,还要懂得使用一些搜引擎的搜索指令,这些搜索指令普通的用户几乎用不到,但对SEO用来研究竞争对手和查找外部的资源却是非常的有用。一名专业的SEO人员除了在搜索引擎搜索普通的关键词外,还需要使用一些特殊的高级搜索指令来查询……【查看全文

    阅读:3161关键词: 搜索引擎   高级搜索   搜索语法   搜索指令   日期:2014-11-07
  • 网站运营的八大SEO策略

    一个大型网站的SEO成功,绝不仅仅是依靠单一SEO技术的成功,最重要的还是靠SEO思维策略,并且把这些SEO思维策略融入到网站运营中,才能使其SEO达到最佳的效果!总的来说,SEO策略就通过实践、总结、思考和创新来创造或者组合各种资源来达放大突破SEO效果,区别于SEO技术……【查看全文

    阅读:1666关键词: 网站运营   SEO策略   网站SEO策略   网站SEO   日期:2013-12-27
  • 史上最全的网站SEO策略方案

    在搜索引擎优化中,一个网站的SEO策略能最终影响到网站未来的优化效果。SEO策略不管对中小网站还是大型网站都是重要的,尤其是对于大型网站,制定一个好的SEO策略就显得尤为重要了。一般的企业网站优化需要考虑的就是排名、长尾、转化率。可是对于大型门户站的seo优化则……【查看全文

    阅读:11545关键词: 网站SEO   SEO策略   SEO方案   SEO   网站SEO策略   SEO策略方案   日期:2013-12-17
  • 影响谷歌搜索排名算法的5大趋势

    从2010年开始谷歌的算法调整就非常的频繁,熊猫、企鹅、蜂鸟算法等都是典型的例子,而这些算法都主要是打击那些低质量链接和内容的网站,打击黑帽SEO对互联网带来的不良影响。而那些给用户提供高质量内容的网站将会获得更好的排名,得到更多的访客。这就意味着你的网站需要给……【查看全文

    阅读:526关键词: 谷歌搜索   排名算法   谷歌搜索排名   谷歌搜索算法   日期:2014-05-18
  • 什么是长尾关键词?

    网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。搜索量非常少,并且不稳定。长尾关键词带来的客户,转化为网站产品客户的概率比目标……【查看全文

    阅读:8048关键词: 长尾关键词   关键词   长尾关键词是   关键词是什么   日期:2013-10-12
  • 网站内链是什么?

    内链考验的是网站细节,一个链接、一段代码在SEO优化中可能起不到任何效果,但到100个,200个精准内链的时候,情况就大不同了,你可以通过修改网站的细节,避免网站造成潜在的权重损失。做过SEO的朋友都应该听过这样一句话:“大站做内链,小站做外链”,我们可以理解为……【查看全文

    阅读:2170关键词: 网站内链   内链是什么   什么是内链   内链   日期:2014-07-07
  • 超链接超文本文档检索系统原理和分析方法

    超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎,它的索引器遍历超文本数据库并寻找包括超链指向的文档地址……【查看全文

    阅读:745关键词: 超链接   超文本   检索原理   日期:2017-02-07
  • 如何通过IIS日志分析网站的隐形信息

    通过IIS日记的记录我们可以更加清楚的分析出搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何?因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行……【查看全文

    阅读:1822关键词: iss日志   iss分析   网站分析   iss   网站信息   日期:2014-08-09
  • 最常用最典型的SEO作弊手段

    作为一名资深SEO工作者,我一直反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段而遭到惩罚,最终对SEO这个行业失去的兴起,一个新站想要迅速获得排名,除了积极原创内容,积极提升高质……【查看全文

    阅读:3507关键词: seo   seo手段   日期:2015-11-01
↓ 点击查看更多 ↓

互联网更多>>

  • 互联网思维究竟是一种什么样的思维? 互联网思维究竟是一种什么样的思维? 但凡做企业的,不管是创业的还是在互联网冲击下转型升级的传统行业企业家,“互联网思维”已经成为了大家共同……
  • 计算机的开机启动原理 计算机的开机启动原理 计算机从打开电源到开始操作,整个启动可以说是一个非常复杂的过程。总体来说,计算机的整个启动过程分成四个……
  • 移动互联网是什么意思? 移动互联网是什么意思? 移动互联网就是将移动通信和互联网二者结合起来成为一体,是指互联网的技术、平台、商业模式和应用与移动通信……

SEO优化 更多>>

如何以一个用户的角度来做企业门户网站 医疗行业开展品牌推广急需解决的10大问题