马海祥博客 > SEO优化 > SEO研究院 > 搜索引擎自动提取文章关键词原理

搜索引擎自动提取文章关键词原理

时间：2013-10-13 文章来源：马海祥博客访问次数：

最近我在给公司的编辑和优化人员培训时，在讲到文章关键词的密度和布局设置的时候，有个SEOer提问：“搜索引擎是如何判断并提取文章关键词？”，关于这个问题，虽然我并不确定百度是用什么技术提取关键词的，但是马海祥却知道一种利用TF-IDF与余弦相似性来自动提取关键词的技术，简单的来说就是针对一篇很长的文章，要想只用计算机提取它的关键词（Automatic Keyphrase extraction），在完全不加以人工干预的情况下，利用什么样的技术原理才能正确做到呢？

一、什么是TF-IDF？

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

TF-IDF的原理

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于保留文档中较为特别的词语，过滤常用词。

二、搜索引擎自动提取文章关键词的原理

关于这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天要在马海祥博客上想要介绍的TF-IDF算法。

首先马海祥以一个实例开始给大家讲起。假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。

搜索引擎自动提取文章关键词原理-马海祥博客

一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。

结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做“停用词”（stop words），表示对找到结果毫无帮助、必须过滤掉的词。

假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样我们可能又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。

这是不是意味着，作为关键词，它们的重要性是一样的？

显然不是这样。因为"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多，有理由认为，"蜜蜂"和"养殖"的重要程度要大于"中国"，也就是说，在关键词排序上面，"蜜蜂"和"养殖"应该排在"中国"的前面。

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么马海祥觉得它很可能就反映了这篇文章的特性，也正是我们所需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词（"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

下面马海祥再详细的给大家介绍一下这个算法的细节：

第1步：计算词频

搜索引擎自动提取文章关键词原理-马海祥博客

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

搜索引擎自动提取文章关键词原理-马海祥博客

或者

搜索引擎自动提取文章关键词原理-马海祥博客

第2步：计算逆文档频率

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

搜索引擎自动提取文章关键词原理-马海祥博客

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第3步：计算TF-IDF

搜索引擎自动提取文章关键词原理-马海祥博客

从上面的公式我们可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

在此马海祥还是以《中国的蜜蜂养殖》为例，假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，则这三个词的"词频"（TF）都为0.02。然后，通过搜索引擎搜索这个词发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张。则它们的逆文档频率（IDF）和TF-IDF如下：

搜索引擎自动提取文章关键词原理-马海祥博客

从上表可见，"蜜蜂"的TF-IDF值最高，"养殖"其次，"中国"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）所以，如果只选择一个词，"蜜蜂"就是这篇文章的关键词。

马海祥博客点评：

除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"中国"、"蜜蜂"、"养殖"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。不过有一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。

本文发布于马海祥博客文章，如想转载，请注明原文网址摘自于https://www.mahaixiang.cn/seoyjy/292.html，注明出处；否则，禁止转载；谢谢配合！

相关标签搜索： 搜索引擎关键词关键词提取自动提取关键自动提取原理

上一篇：什么是长尾关键词？
下一篇：搜索引擎判定相似文章网页的原理

您可能还会对以下这些文章感兴趣！

404 Not Found错误页面的解决方法和注意事项

404页面就是当用户访问某网站时，点击了错误的链接时，所返回的页面。最常见的出错提示：404 Not Found。其目的就是告诉浏览者其所请求的页面不存在或链接错误，同时引导用户使用网站其他页面而不是关闭窗口离开。错误页面的文字可以自定义，有些网站没有设置404错误页面，或……【查看全文】

阅读：96618关键词： 404页面 404错误 404 日期：2014-02-16
搜索引擎判定相似文章网页的原理

余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1;并且其最小值是 -1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值……【查看全文】

阅读：1384关键词：搜索引擎判定相似文章相似文章原理文章判定原理 日期：2013-10-13
SEO链轮是什么？

SEO链轮(SEO Link Wheels)是从国外引入国内的，一种比较新颖的SEO策略，是一种比较先进的网络营销方式。SEO链轮是指通过在互联网上建立大量的独立站点或是在各大门户网站上开设博客，这些独立站点或是博客群通过单向的、有策略、有计划紧密的链接，并都指向要优化的目标……【查看全文】

阅读：1139关键词： seo seo链轮 日期：2016-02-24
落地页体验白皮书5.0解读：什么样的顶部嵌入广告符合体验标准

《百度APP移动搜索落地页体验白皮书5.0》对页面广告的内容、形式、位置和面积的要求都做出了详细的说明，受到了全网开发者的广泛关注。关于白皮书5.0中最新提出的顶部嵌入广告标准”落地页首屏顶部允许嵌入不超过一屏面积10%的优质广告”，不少开发者对此提出疑问和反馈，本篇文章将对顶部嵌入优质广告要求做出具体解读：落地页首屏顶部允许嵌入优质广告的总体要求如下：面积：顶部嵌入广告面积必须小于首屏面积的10%。标识：广告位上有明……【查看全文】

阅读：89关键词：落地页白皮书广告广告标准 日期：2020-04-17
反向链接是什么意思

反向链接又叫导入链接（Backlinks），外部链接，是指外部网站有你的网址指向你的网站，其实就是在目标文档（网页）内部进行声明，要求目标文档指向自己（网页）的链接，通俗点讲，网页A上有一个链接指向网页B，则网页A上的链接是网页B的反向链接，换言之，常规链接在文……【查看全文】

阅读：2048关键词：反向链接 日期：2012-08-14
2011-2012年百度历次大更新数据分析

本篇文章记录了百度从2011年到2012年中旬百度大更新记录的文章。以下数据分析以站长之家官方提供的网站监控分析数据为蓝本，结合优词网等站点观察数据和一些优秀SEO站长工具和软件的收集，并佐以自己手上二十几个站点作参考进行综合分析，基于统计学分析原理，以大量站……【查看全文】

阅读：636关键词：百度大更新数据分析 日期：2012-08-09
网站SEO优化的分析诊断报告包含了哪些内容

SEO优化是针对搜索引擎规则做出优化以提高网站排名为目的的优化手段。其所需时间往往是长久性的，包括从网站域名、服务器、程序选取、网站结构、行业分析、竞争分析而切入的优化过程。而SEO诊断，在时间的要求上恰与其截然相反，所求目的完全与优化过程一致：提高网站友……【查看全文】

阅读：7211关键词：网站seo seo优化 seo分析 seo诊断 seo报告 seo 日期：2014-09-15
百度最新调整后的算法规则

最近闹得沸沸扬扬的百度6.22和6.28的K站事件到目前已经告一段落了，K站的主要原因已经渐渐明朗，以及百度将会对哪些类型的网站会做降权处理，现在也已经明朗化。针对各大站长漫长的着急等待，以及愤恨的心情，百度目前已经给出了较为明确的答案，那么百度规则和算法调整……【查看全文】

阅读：1586关键词：百度最新算法百度算法规则百度最新调整 日期：2012-08-17
《百度搜索优质内容指南》全文解读

今日，《百度搜索优质内容指南》在百度搜索学院悄悄地上线了，这是百度近两年，再次重新深度定义什么是百度搜索优质内容，对于SEO人员而言，特别是对于新站长而言，具有非常积极的指导意义，以免造成过多的资源浪费，给予了明确的指导规范的建议。百度搜索2020年全新发布了面向全网内容生产者的《百度搜索优质内容指南》，详细讲述了优质内容的标准，希望给广大内容生产者在生产优质内容时提供参考。关于优质内容的详细标准，请查看以下……【查看全文】

阅读：345关键词：百度搜索优质内容百度指南 日期：2020-04-01
百度索引量下降的原因及解决方法

作为一名专业的SEO人员，我们很多的时候都在研究站点中有多少页面可以作为搜索候选结果，也就是一个网站的索引量，所谓网站索引量，就是搜索引擎抓取你网站的数量，这能影响到网站收录率，是一个非常重要的SEO因素，索引量是流量的基础，索引量数据的每一个变动都拨动着……【查看全文】

阅读：5771关键词：百度索引量百度索引量百度索引 日期：2015-05-21
百度移动搜索落地页体验白皮书4.0全文解读

进入移动互联网时代，百度搜索致力于提升搜索用户的浏览体验，营造健康的搜索生态。过去一年中，在百度搜索和全网资源提供者的共同努力下，移动搜索落地页广告问题已经得到了明显的改善。现在，百度搜索发布《百度移动搜索落地页体验白皮书4.0》，旨在继续与各内容生产……【查看全文】

阅读：153关键词：移动搜索落地页白皮书 日期：2018-08-15
如何分析网站是否真的被降权惩罚及解决方法

对于混迹于国内站长圈的朋友来说，每天起早贪黑发外链的网站被百度惩罚似乎在这几年已经是司空见惯的事了，所以很多时候网站流量、排名或者是收录有小幅度波动时，站长都会认为网站又被惩罚了，有到处的去抱怨。其实，很多情况都只是站长自己太过于敏感了而已，网站被百……【查看全文】

阅读：2958关键词：网站分析网站被惩罚网站降权 日期：2014-04-24
linux系统或windows+iis系统设置404页面方法

404页面通常是为用户访问了网站上不存在或已删除的页面，服务器返回404错误页面，告诉浏览者其所请求的页面不存在或链接错误，同时引导用户使用网站其他页面而不是关闭窗口离开，消除用户的疑虑。网站设置404页面后，如果网站出现死链接，搜索引擎蜘蛛爬行这类网址……【查看全文】

阅读：169关键词： 404 linux 系统 window iis 404页面 日期：2018-11-22
百度快照更新是什么意思？

最近发现有很多刚入SEO行业的新手对网站seo的技巧有很多的误区，比如网站快照不更新就代表网站被惩罚。关于这个观点我们先看看什么是百度快照，百度快照的作用是什么？我们有该如何让百度快照持续更新呢？快照即为Web Cache，可以翻译为网页缓存，当搜索引擎派出蜘蛛去对网站……【查看全文】

阅读：9777关键词：百度快照百度快照更新快照更新 日期：2014-03-17
揭秘搜索引擎中的反SEO作弊研究

从搜索引擎优化服务开始，分析了现在所存在的搜索引擎优化的作弊手段；然后提出了四种方法用来预防、破解作弊，并结合现实总结提出逐级分层审查刮度；最后结合Google搜索引擎，讨论并分析了Google搜索引擎的反作弊方法及其中的PR值算法……【查看全文】

阅读：687关键词：搜索引擎反SEO作弊 SEO研究 日期：2012-10-15
基于用户投票的六大排名算法研究

随着互联网的发展，网站的数量也在随着成倍的增加着，就中国的互联网来说，根据中国互联网信息中心的数据显示，目前中国的网站数量每半年都会以接近10%的数量增长。这些大量的网站涌现，也就意味着我们已进入了信息大爆炸的时代。而如今用户担心的已不再是信息太少，而……【查看全文】

阅读：4660关键词：用户投票排名算法研究排名算法用户投票算法 日期：2013-12-28
网站最新SEO优化公式解析

网站seo优化公式 SEO=Clock=C1+L2+K3+O4 1、是一个积分符号，C=content，L=link，K=keywords，O=others。SEO就是一个长期的对时间积分过程，内容是核心； 2、C1丰富的内容是第一位的要素，按照原创、伪原创、转载依次排列内容的重要性满足用户体验； 3、L2链接的合理与……【查看全文】

阅读：2119关键词： seo seo优化公式网站seo 网站优化 seo公式 日期：2012-08-06
落地页体验白皮书5.0解读：如何合理设置展开全文功能

本文解读文章深度剖析展开全文功能的设置要求。白皮书5.0提到”展开全文的设置必须具有文字标示，且功能实际可用；展开全文功能最多只能出现一次，但不可出现在落地页的首屏内容中（列表页除外）；展开全文与广告等引导性内容要设置一定距离间隔，避免干扰用户操作。”如何设置展开全文按钮才更符合用户的体验习惯呢？这篇文章将为你答疑解惑。百度搜索用户研究团队的用户调研发现，搜索用户进入落地页的诉求是浏览页面全部内容，展开……【查看全文】

阅读：115关键词：落地页白皮书展开功能 日期：2020-04-19
百度排名算法规则及SEO优化要点总结

做SEO目的其实就是为访客服务，满足用户的需求，想方设法的为了用户提供他们想要看的内容，而不是一味的最求最大利益化，其实百度只是一个展示的平台，只要你有了用户的青睐，你想达到的目标，自然也就水到渠成了，做SEO的核心就是要挖掘用户的力量，只有挖掘用户的力量……【查看全文】

阅读：3006关键词：百度百度排名百度算法 seo优化 日期：2015-12-31
Google搜索质量小组专业解答的25个SEO问题

2013年对于众多站长和SEO可以说是最为波折的一年，这一年百度出台了百度绿萝算法、百度石榴算法和百度绿萝算法2.0，而google也相继出台了谷歌EMD算法、熊猫算法、企鹅算法2.0和蜂鸟算法。作为一个站长或SEOer，你是否对这些算法还存在很多的疑惑，尤其对于靠做外贸产品……【查看全文】

阅读：692关键词： Google Google搜索搜索质量解答SEO问题 SEO问题 日期：2013-11-22

↓ 点击查看更多 ↓

热点推荐

互联网更多>>

基于贝叶斯推断应用原理的过滤垃圾邮件研究随着电子邮件的应用与普及，垃圾邮件的泛滥也越来越多地受到人们的关注。而目前正确识别垃圾邮件的技术难度非……
云服务器的常规安全设置及基本安全策略我们要保障云服务器数据安全，首先应树立正确的安全意识，从监控、入侵防御、数据备份等多方面做好安全措施，……
互联网技术的50年发展回顾与分析 1998年至2008年是公认的互联网飞速发展的十年，无论是传输速率、网络规模、关键技术还是应用领域都经历了大幅的增……

网络营销更多>>

盘点2014年八大互动营销创意案例	影响社交媒体发展趋势的要点有哪些？
微信朋友圈广告真的是大数据推荐的吗？	内容营销是什么？