马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > 基于结构化数据的丰富网页摘要研究

基于结构化数据的丰富网页摘要研究

时间:2014-04-08   文章来源:马海祥博客   访问次数:

随着搜索引擎对结构化数据资料的不断更新完善,马海祥就越发地感觉有必要对结构化数据标记、丰富网页摘要、数据标注工具、结构化数据标注等问题,作下个人学习总结,一方面算是个学习实践的回顾,同时也是为更多的新手朋友提供基础的答疑帮助。

结构化数据工具是搜索引擎快速引入结构化数据的入口。对于优质的数据资源,可应用于索引、排序、摘要展现等环节,提高索引量并以结构化摘要样式展现给用户。

结构化数据是在普通摘要基础上,增加了一些结构化因子,给用户提供更丰富的摘要内容。如问答类结果中的回复数、提问时间;资料下载中的资料大小,下载条件;软件下载类结果中的软件大小、更新时间等。

基于结构化数据的丰富网页摘要研究-马海祥博客

一、什么是结构化数据?

结构化数据简单来的说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

一个页面的内容,例如人物、事件、产品或评论不仅要给用户看,还要让搜索引擎可识别,而目前要让其知会特定内容含义,我们需要使用规定的标签、属性名以及特定用法等。举个简单例子,在网页中我们使用title标签包裹页面标题信息,搜索引擎就知道这是标题,当然这不是微数据,微数据也是为了方便搜索引擎识别页面内容而产生的东西,有特定的规范,有特定的格式。

1、百度的结构化数据展示

对于使用结构化数据展示的网站,大家最常见的就是百度文库了,在搜索结果的页面中你会发现搜索标题的下方会有个评分等级展示,而一般的网站则没有。如下图所示:

基于结构化数据的丰富网页摘要研究-马海祥博客

2、google的结构化数据展示

谷歌丰富摘要和结构化数据旨在让Google更了解您网页上的内容,创建丰富网页摘要,为用户具体查询提供更详尽的信息。旨在让用户大体了解网页上的内容,以及与用户的搜索查询有何关联。如下图所示:

基于结构化数据的丰富网页摘要研究-马海祥博客

如果Google了解您网页上的内容,就可以创建丰富网页摘要,也就是为用户的具体查询提供帮助的详细信息。例如,针对餐馆的摘要可能会显示平均评分和价格范围;针对食谱网页的摘要可能会显示总的准备时间、照片以及对食谱的评分;而针对音乐专辑的摘要可能会列出各首歌曲以及播放链接。这些丰富网页摘要可帮助用户了解您的网 站与他们的搜索内容是否相关,并可能让您的网页获得更多点击次数。

二、结构化数据的作用

马海祥一直觉得,SEO就是搜索引擎与网站之间沟通的桥梁,SEO能帮助搜索引擎蜘蛛更好地抓取网站内容,且同时能使网站内容更多、更好地展示在搜索结果中。

那么结构化数据标记,就是其中一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。

搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。

同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。

这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。

如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率。

三、百度站长平台提供的结构化数据功能

对此,在百度站长平台上,我们也能看到一个“结构化数据”功能,类似sitemap的工具,不过现在只对邀请参与sitemap的网站提供服务。文件类型目前较为单一,只有“其他”、“互联网”两类。目前sitemap模版为软件下载类、问答类、在线文档类,强烈关注该功能的发展。如下图所示:

基于结构化数据的丰富网页摘要研究-马海祥博客

除了普通内容外,百度一直对网上的资源(如学术、文档、资料、软件)等资源抓取的不是太好,所以结构化数据应该是sitemap工具的补充,sitemap更多是在文章、内容方面的索引,而结构化数据则是对互联网上一些特殊资源的一种主动提交方式。

结构化工具的亮点:

1、支持站长向百度提交网站内容的结构化数据,百度对符合要求的优质资源会通过结构化摘要的形式展现给用户。

2、目前已支持四种形式的结构化摘要的提交:通用问答、在线文档、资料下载、软件下载。

3、后续会不断地丰富不同类型结构化内容的提交及对应结构化摘要的展示。

四、结构化数据标记的方式有哪些?

如果你也想对你的网站进行结构化数据标记的话,可以使用HTML代码标记和谷歌管理员工具里数据标注工具进行标记。

1、使用HTML代码标记

HTML代码标记的方式主要有3种:微数据、微格式和RDFa(具体可查看马海祥博客的《实例解析丰富网页摘要的三大标记格式》的详细介绍)。但对于一些外贸站站来说,标记是以微数据为主,少许时候也会用到微格式,视不用的页面类型而定吧。

2、使用微数据标记

使用微数据标记的话,有两种代码格式:http://data-vocabulary.org/ 和 http://schema.org/。由于data-vocabulary标记只支持谷歌搜索,而schema同时支持谷歌、雅虎、Bing等搜索,因而我们不妨称data-vocabulary为旧版标记,schema为新版标记。

目前的主流是使用schema进行标记。但由于页面上有些项(如:面包屑导航), schema并没推出相应的标记代码,从而也得仍旧使用data-vocabulary来标记, 这样的话页面代码上就会出现新旧代码并存的情况,不过这并不妨碍搜索引擎蜘蛛抓取页面内容。

使用数据标注工具的话,可以进行简单的内容标记。目前支持9种标记类型:文章、图书评论、事件、本地商家、电影、产品、餐馆、软件应用和电视续集。操作时你可以自己创建个网页集,针对那个类型页面进行标记,然后谷歌会抓取该类型相关网页的内容,你进行审核修改,修改后没问题的话,就点击确认创建就OK了。

那么,对此可能就有博友会问了:为什么不直接使用谷歌管理员工具的数据标注工具,而要使用微数据标记?

前面马海祥也跟大家有说到,数据标注工具只可以进行简单的内容标记,稍微复杂些的标记便无法实现,譬如大部分电子商务网站都会在产品页上显示星级评价,但如果你使用数据标注工具的话,便无法直接标记综合星级评分多少、最佳评分多少等。且数据标注工具创建的内容只是针对谷歌搜索的,而不支持雅虎、Bing等其它搜索引擎。

而微数据标记就不同了,可标注的内容多而全。不过由于微数据标记得涉及到修改页面HTML代码,稍不小心就容易出错,因而得慎之又慎,因而谷歌便推出了结构化标记助手:https://www.google.com/webmasters/markup-helper?hl=en帮助站长进行内容的标记。这个工具可以跟数据标注工具有点类似,不过数据标注工具的结果是直接保存在谷歌管理员工具中,而结构化数据标记助手的结果是生成一个标记好的页面HTML代码,只要把那段标记好的代码放入你网站的页面代码中即可。

五、结构化数据标记后,多长时间能在搜索结果中显示?

目前结构化数据可以标记以下这些内容:文章、电影、事件、活动、评价、人物、商品、商家和组织、食谱、活动、音乐等等。

但何时显示并没确切的时长,涉及的因素有网站权重、标记页面类型等。

如果你标记的只是单个页面,且网站权重OK,那么只要该单个页面正确地标记好,便会迅速地在搜索结果中展示。

如果你标记的是产品页,且网站产品页数量达到几万,甚至几十万,那么得等蜘蛛把这些大部分产品页抓取过一遍,再根据网站权重等因素,酌情显示了。

马海祥博客知识扩展:

我们本文中主要讲的是结构化数据,除此之外,还有非结构化数据和半结构化数据,我将会在马海祥博客上为大家再详细的介绍。

1、非结构化数据

包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

2、半结构化数据

包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档等基本存储需求。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于https://www.mahaixiang.cn/seoyjy/495.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 丰富网页摘要   结构化数据  

上一篇:关于二级域名的10个热点问答
下一篇:实例解析丰富网页摘要的三大标记格式

您可能还会对以下这些文章感兴趣!

  • 百度排名算法规则及SEO优化要点总结

    做SEO目的其实就是为访客服务,满足用户的需求,想方设法的为了用户提供他们想要看的内容,而不是一味的最求最大利益化,其实百度只是一个展示的平台,只要你有了用户的青睐,你想达到的目标,自然也就水到渠成了,做SEO的核心就是要挖掘用户的力量,只有挖掘用户的力量……【查看全文

    阅读:3006关键词: 百度   百度排名   百度算法   seo优化   日期:2015-12-31
  • 《百度搜索优质内容指南》全文解读

    今日,《百度搜索优质内容指南》在百度搜索学院悄悄地上线了,这是百度近两年,再次重新深度定义什么是百度搜索优质内容,对于SEO人员而言,特别是对于新站长而言,具有非常积极的指导意义,以免造成过多的资源浪费,给予了明确的指导规范的建议。百度搜索2020年全新发布了面向全网内容生产者的《百度搜索优质内容指南》,详细讲述了优质内容的标准,希望给广大内容生产者在生产优质内容时提供参考。关于优质内容的详细标准,请查看以下……【查看全文

    阅读:345关键词: 百度搜索   优质内容   百度指南   日期:2020-04-01
  • SEO链轮是什么?

    SEO链轮(SEO Link Wheels)是从国外引入国内的,一种比较新颖的SEO策略,是一种比较先进的网络营销方式。SEO链轮是指通过在互联网上建立大量的独立站点或是在各大门户网站上开设博客,这些独立站点或是博客群通过单向的、有策略、有计划紧密的链接,并都指向要优化的目标……【查看全文

    阅读:1139关键词: seo   seo链轮   日期:2016-02-24
  • 2011-2012年百度历次大更新数据分析

    本篇文章记录了百度从2011年到2012年中旬百度大更新记录的文章。以下数据分析以站长之家官方提供的网站监控分析数据为蓝本,结合优词网等站点观察数据和一些 优秀SEO站长工具和软件的收集,并佐以自己手上二十几个站点作参考进行综合分析,基于统计学分析原理,以大量站……【查看全文

    阅读:636关键词: 百度大更新   数据分析   日期:2012-08-09
  • 百度移动搜索落地页体验白皮书4.0全文解读

    进入移动互联网时代,百度搜索致力于提升搜索用户的浏览体验,营造健康的搜索生态。过去一年中,在百度搜索和全网资源提供者的共同努力下,移动搜索落地页广告问题已经得到了明显的改善。现在,百度搜索发布《百度移动搜索落地页体验白皮书4.0》,旨在继续与各内容生产……【查看全文

    阅读:153关键词: 移动搜索   落地页   白皮书   日期:2018-08-15
  • 网站最新SEO优化公式解析

    网站seo优化公式 SEO=Clock=C1+L2+K3+O4 1、是一个积分符号,C=content,L=link,K=keywords,O=others。SEO就是一个长期的对时间积分过程,内容是核心; 2、C1丰富的内容是第一位的要素,按照原创、伪原创、转载依次排列内容的重要性满足用户体验; 3、L2链接的合理与……【查看全文

    阅读:2119关键词: seo   seo优化公式   网站seo   网站优化   seo公式   日期:2012-08-06
  • 网站SEO优化的分析诊断报告包含了哪些内容

    SEO优化是针对搜索引擎规则做出优化以提高网站排名为目的的优化手段。其所需时间往往是长久性的,包括从网站域名、服务器、程序选取、网站结构、行业分析、竞争分析而切入的优化过程。而SEO诊断,在时间的要求上恰与其截然相反,所求目的完全与优化过程一致:提高网站友……【查看全文

    阅读:7211关键词: 网站seo   seo优化   seo分析   seo诊断   seo报告   seo   日期:2014-09-15
  • 如何分析网站是否真的被降权惩罚及解决方法

    对于混迹于国内站长圈的朋友来说,每天起早贪黑发外链的网站被百度惩罚似乎在这几年已经是司空见惯的事了,所以很多时候网站流量、排名或者是收录有小幅度波动时,站长都会认为网站又被惩罚了,有到处的去抱怨。其实,很多情况都只是站长自己太过于敏感了而已,网站被百……【查看全文

    阅读:2958关键词: 网站分析   网站被惩罚   网站降权   日期:2014-04-24
  • 落地页体验白皮书5.0解读:什么样的顶部嵌入广告符合体验标准

    《百度APP移动搜索落地页体验白皮书5.0》对页面广告的内容、形式、位置和面积的要求都做出了详细的说明,受到了全网开发者的广泛关注。关于白皮书5.0中最新提出的顶部嵌入广告标准”落地页首屏顶部允许嵌入不超过一屏面积10%的优质广告”,不少开发者对此提出疑问和反馈,本篇文章将对顶部嵌入优质广告要求做出具体解读:落地页首屏顶部允许嵌入优质广告的总体要求如下:面积:顶部嵌入广告面积必须小于首屏面积的10%。标识:广告位上有明……【查看全文

    阅读:89关键词: 落地页   白皮书   广告   广告标准   日期:2020-04-17
  • 百度索引量下降的原因及解决方法

    作为一名专业的SEO人员,我们很多的时候都在研究站点中有多少页面可以作为搜索候选结果,也就是一个网站的索引量,所谓网站索引量,就是搜索引擎抓取你网站的数量,这能影响到网站收录率,是一个非常重要的SEO因素,索引量是流量的基础,索引量数据的每一个变动都拨动着……【查看全文

    阅读:5771关键词: 百度索引量   百度   索引量   百度索引   日期:2015-05-21
  • 404 Not Found错误页面的解决方法和注意事项

    404页面就是当用户访问某网站时,点击了错误的链接时,所返回的页面。最常见的出错提示:404 Not Found。其目的就是告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。错误页面的文字可以自定义,有些网站没有设置404错误页面,或……【查看全文

    阅读:96618关键词: 404页面   404错误   404   日期:2014-02-16
  • Google搜索质量小组专业解答的25个SEO问题

    2013年对于众多站长和SEO可以说是最为波折的一年,这一年百度出台了百度绿萝算法、百度石榴算法和百度绿萝算法2.0,而google也相继出台了谷歌EMD算法、熊猫算法、企鹅算法2.0和蜂鸟算法。作为一个站长或SEOer,你是否对这些算法还存在很多的疑惑,尤其对于靠做外贸产品……【查看全文

    阅读:692关键词: Google   Google搜索   搜索质量   解答SEO问题   SEO问题   日期:2013-11-22
  • 落地页体验白皮书5.0解读:如何合理设置展开全文功能

    本文解读文章深度剖析展开全文功能的设置要求。白皮书5.0提到”展开全文的设置必须具有文字标示,且功能实际可用;展开全文功能最多只能出现一次,但不可出现在落地页的首屏内容中(列表页除外);展开全文与广告等引导性内容要设置一定距离间隔,避免干扰用户操作。”如何设置展开全文按钮才更符合用户的体验习惯呢?这篇文章将为你答疑解惑。百度搜索用户研究团队的用户调研发现,搜索用户进入落地页的诉求是浏览页面全部内容,展开……【查看全文

    阅读:115关键词: 落地页   白皮书   展开功能   日期:2020-04-19
  • 反向链接是什么意思

    反向链接又叫导入链接(Backlinks),外部链接,是指外部网站有你的网址指向你的网站,其实就是在目标文档(网页)内部进行声明,要求目标文档指向自己(网页)的链接,通俗点讲,网页A上有一个链接指向网页B,则网页A上的链接是网页B的反向链接,换言之,常规链接在文……【查看全文

    阅读:2048关键词: 反向链接   日期:2012-08-14
  • 百度快照更新是什么意思?

    最近发现有很多刚入SEO行业的新手对网站seo的技巧有很多的误区,比如网站快照不更新就代表网站被惩罚。关于这个观点我们先看看什么是百度快照,百度快照的作用是什么?我们有该如何让百度快照持续更新呢?快照即为Web Cache,可以翻译为网页缓存,当搜索引擎派出蜘蛛去对网站……【查看全文

    阅读:9777关键词: 百度快照   百度快照更新   快照更新   日期:2014-03-17
  • 揭秘搜索引擎中的反SEO作弊研究

    从搜索引擎优化服务开始,分析了现在所存在的搜索引擎优化的作弊手段;然后提出了四种方法用来预防、破解作弊,并结合现实总结提出逐级分层审查刮度;最后结合Google搜索引擎,讨论并分析了Google搜索引擎的反作弊方法及其中的PR值算法……【查看全文

    阅读:687关键词: 搜索引擎   反SEO作弊   SEO研究   日期:2012-10-15
  • 基于用户投票的六大排名算法研究

    随着互联网的发展,网站的数量也在随着成倍的增加着,就中国的互联网来说,根据中国互联网信息中心的数据显示,目前中国的网站数量每半年都会以接近10%的数量增长。这些大量的网站涌现,也就意味着我们已进入了信息大爆炸的时代。 而如今用户担心的已不再是信息太少,而……【查看全文

    阅读:4660关键词: 用户投票   排名算法研究   排名算法   用户投票算法   日期:2013-12-28
  • 百度最新调整后的算法规则

    最近闹得沸沸扬扬的百度6.22和6.28的K站事件到目前已经告一段落了,K站的主要原因已经渐渐明朗,以及百度将会对哪些类型的网站会做降权处理,现在也已经明朗化。针对各大站长漫长的着急等待,以及愤恨的心情,百度目前已经给出了较为明确的答案,那么百度规则和算法调整……【查看全文

    阅读:1586关键词: 百度最新算法   百度算法规则   百度最新调整   日期:2012-08-17
  • linux系统或windows+iis系统设置404页面方法

    404页面通常是为用户访问了网站上不存在或已删除的页面,服务器返回404错误页面,告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开,消除用户的疑虑。网站设置404页面后,如果网站出现死链接,搜索引擎蜘蛛爬行这类网址……【查看全文

    阅读:169关键词: 404   linux   系统   window   iis   404页面   日期:2018-11-22
  • 搜索引擎判定相似文章网页的原理

    余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是 -1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值……【查看全文

    阅读:1384关键词: 搜索引擎   判定相似文章   相似文章原理   文章判定原理   日期:2013-10-13
↓ 点击查看更多 ↓

互联网更多>>

SEO优化 更多>>

百度冰桶算法4.5:发力打击Landing Page恶劣广告 如何通过IIS日志分析网站的隐形信息