今天我们讲解一下TF-IDF关键词加权算法,其实这个算法是早期的搜索引擎算法,就跟现在的关键词密度算法差不多,当然这个算法目前一定是在进行改...
今天我们讲解一下TF-IDF关键词加权算法,其实这个算法是早期的搜索引擎算法,就跟现在的关键词密度算法差不多,当然这个算法目前一定是在进行改进,大家看到的网络上的TF-IDF算法都是一些转载以前的文章,且非常复杂难懂,也讲不到根本点上,所以本篇文章我会加入一些自己的研究总结进去,使这个算法更加通俗易懂,有些地方我稍做改进,是希望能够让新手朋友更加容易理解!
很多朋友也会质疑,那么这是早期的算法,现在还有用么,对我们SEO到底有什么实际帮助那?这里告诉你,其实还是有用的,对SEO方面也是有帮助的,但是大家记住,现在百度的排名是多维的,这只是排名算法的一个细节而已,不要心急,下面我们会详细讲解!
TF-IDF是什么意思?
TF则为:关键词频率,当前关键词在整篇文章(分词)词库中的占比!
IDF则为:逆向文件频率/正向文件频率,逆向文件频率主要用于在分词中,消除一些关键词的辅助词,例如“的、是、怎么”这类辅助词,正向文件频率则为你当前包含关键词的文章数量占据总网站文章数量的总占比或者说频率。
TF-IDF:即用TF关键词频率 乘以 IDF逆向/正向文件频率,而得出的一个综合值,后面说详细用处!
如何求TF词频?
这个是非常简单的,公式为:TF = W/D;
W = 这篇文章分词后所包含当前关键词的数量;
D = 这篇文章分词后所有词汇的数量!
TF = 当前关键词,在页面中出现的频率,称为词频!
举例:一篇文章分词后,有100组词,其中SEO出现10词,那么套入公式 10/100 = 0.1 当前的词频是0.1。
这里注意:关键词密度与词频还是有一点区别的。关键词密度 = 关键词出现次数x关键词字数/文章总字数(不含标题)x100%,虽然意思有点差不多,但是不要搞混这两者的关系!
如何求IDF逆向/正向文件频率?
逆向文件频率 = 总文章数 / 包含关键词的文章
正向文件频率 = 包含关键词的文章 / 总文章数
举例:你网站中总共有100篇文章,其中包含SEO的文章有10篇,我们带入公式。
逆向文件频率 = 100 / 10 = 10;
正向文件频率 = 10 / 100 = 0.1;
TF-IDF值怎么求那?
非常简单了,TF-IDF 即是 TF乘以IDF,我们直接套用上面的案例数据!
逆向TF-IDF = 0.1 * 10 = 1;
正向TF-IDF = 0.1 * 0.1 = 0.01;
下面我们来讲解一下TF-IDF的实际应用!
TF词频越高相关性越好(排名也就越好)
我们想一下,如果当前页面的关键词数量越多,是不是证明词频越大,词频越大是不是证明页面相关度越好,当然相关排名就会比较高,这个算法引用于“关键词密度”算法,正常保持在2%-8%之间就可以了!
TF词频可以提取页面重点关键词
我们一般做优化,文章中的tag聚合标签和页面关键词是非常重要的,搜索引擎通过关键字直接就可以明白,我们的页面的主题内容,同时tag聚合标签如果定位的精准直接可以分类我们的页面文章,文章类型分类会更精准,更加利于用户体验,正常而言我们人为定义tag标签和网页关键字是不精准的,我们想一下,如果某一个关键词在当前文章中词频最高,是不是就是说,是我们的核心关键词那?这个是当然的了!
如何用TF词频去找核心词那?其实网络上有工具的,我们直接百度“TF-IDF分词工具”然后把文章复制进去,点击分词,在右边就会按照频率的高-》低进行排列,我们把前面词频高的关键词提取出来即可!
TF词频可以用于寻找更精准的相关文章
在页面布局的时候,一般来说右侧都是推荐文章、相关文章,来诱导用户进行点击,我们是不是可以这样认为,相关推荐越精准的文章,用户点击量就越高那?用户点击量越高的网站百度就会有一定的优待,权重评分就会增加!一般开源CMS网站的相关推荐,都是用标题识别技术来进行相关推荐的,但这样并不精准,我们打一个比方,SEO内页优化,SEO外链优化,都含有SEO,但是内容确是不精准的,页面点击量就会降低!
使用TF-IDF来寻找相关文章的方法原理很简单,精准度非常好,这边来讲解一个,TF-IDF会自动提取所有文章的TF词频,把每篇文章前20个最高词频进行相互对比,如果符合率达到10个以上,即可做为相关推荐文章。这种方式可以让文章的相关性在90%以上,可以说是非常精准的了。
IDF逆向文件频率主要用于过滤噪音词
IDF逆向文件频率主要用于消除分词中的辅助字,我举个例子“seo优化的方法”如果用TF-IDF来进行分词的话,你会发现会分成“seo、优化、方法”辅助字“的”消失了,TF-IDF的逆向文件频率就是消除一些辅助字的,也称为消除噪音字,(原理就不详细讲了,因为用软件直接就可以操作,没有必要学这些东西,会增加你认知难度,主要这一块也不重要)!
TF词频 * IDF正向文件频率 则为排名的关键点!
这块是一个重点,如果某一个关键词TF频率越高,网站中包含这个关键词的文章越多的话,那么这个关键词的排名相对来说就会越好。
这边举一个例子:首页所有的文字通过分词后,变成了1000个词组“seo”在这个词组中更出现了100次,TF频率就为:100/1000 = 0.1;
如果你的网站中有1000篇文章,有100篇文章包括了这个关键词,正向IDF频率就是:100/1000 = 0.1;
那么当前的 TF-IDF:0.1*0.1 = 0.01;
在举第二个例子:首页分词后,变成1000个词组“基础知识”在词组中共出现了120词,TF频率为:120/1000 = 0.12;
同样,如果网站中有1000篇文章,有120篇文章包含了这个关键词,正向IDF频率就是:120/1000 = 0.12;
那么当前的 TF-IDF:0.12*0.12 = 0.0144;
“seo”的TF-IDF是:0.01,而“基础知识”的TF-IDF是:0.0144,很显然本站关键词“基础知识”排名要高于关键词“seo”!
同样道理,你与你的竞争对手,如果你的正向TF-IDF值小于竞争对手的,那么你的排名在这一方面就要低于你的竞争对手,所以说增加正向TF-IDF值可以有效提升我们的网站排名的!
好了,今天的TF-IDF加权算法就讲解到这里,核心思路就是TF词频和IDF的正向文件频率的增加是可以有效增加排名的,另外如果大家可以从这篇文章学到知识的话,那么大家可以参加我们代代SEO实战SEO培训,我们有一套绝对有效的排名技术,同时包括“网站建设-》实战排名-》成交转化-》项目包装”等这一些列的教程培训,价格非常优惠,课程通俗易懂,零基础的朋友均可参加学习,同时也包售后这一块,可以帮助新手朋友在非常短的时间内学会SEO这项技能,并且自己可以独立完成建站、排名关键词到首页等技术操作!
上一篇:运用“思维脑图”布局网站!
下一篇:网页集权方法和技巧!