TF-IDF中文分词算法总结

2019-12-16
TF-IDF介绍:

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率(TF)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类、做为内容的关键字,或者做为文章的主题词。

名词解释:

TF IDF实际上是:TF * IDF
TF词频(Term Frequency) 
IDF逆向文件频率(Inverse Document Frequency)。

TF-IDF的应用:

TF表示词条在文档中出现的频率。
IDF的主要含义是:如果包含词条的文档越少,IDF越大。
TF值较大,同时IDF值也较大,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档,即核心关键词!

TF-IDF对SEO的意义:

如果你的网页标题和内容,通过TF-IDF计算到的核心关键字,正好是你想优化的词,那么,你的网页获得较好排名的机会就会大大增加。

反之,如果你想优化的词并不是网页的真正核心关键字,那么,要获得好的排名,则需要更多的其它方面的努力。


不同的词性他的含义和作用也完全不一样,那么搜索引擎如何借助词性来判断关键词的核心主题呢?

如果我们从大范围来讲,一个网页的主题包含的关键词不少,但是真正有价值的关键词其实就那么几个,并且这些有价值的词我们暂且称为核心关键词。从词性来看,多数这些有价值的词均为名词形态,如果不了解该词到底属于什么关键词词性可以通过语义分析系统去识别(网址:http://ictclas.nlpir.org/nlpir/),也可以对照一下自己网站的关键词,核心词绝对是以名词为主。

一般来说,核心关键词定位多数都是名词+动词,或者名词+形容词,比如小明在奔跑,该标题对于用户来说,都知道核心关键词是小明,没了小明奔跑就没有任何价值了。但是对于搜索引擎来说肯定不理解,从上面我们所讲到的分词原理,可以了解到该词的核心关键词也是小明,因为小明是名词,奔跑是动词,也叫做名+动。当然定位核心关键词的首要条件是必须是词性的频次相等的情况下才会优先将名词定位核心关键词,比如漂亮_漂亮同义词_漂亮的含义,虽然该标题里面漂亮是形容词,并且也包含了其他名词,但是为何核心词是漂亮而不是其他名词,因为频次相同才会将名词定位核心词,频次不相同优先将频次最大的关键词定位核心关键词。


TF-IDF分词算法总结:

1、网页关键词通过标点符合进行分词处理,虽然这个板块大多数SEO人都知道操作,但是由于你符号用的越多,导致网页的分词越广,最终主题不集中。比如:SEO_SEO培训_SEO教程_SEO优化,这种就是分词大忌,看起来都是分了4个词,其实没有一个集中的,如果要最集中也就是SEO这个词了。

2、网页内容不管是更新新闻还是更新产品都要围绕标题的核心词去做,当然并不是要你去堆砌关键词,搜索引擎是有分词算法的,即使你网页体现培训这个词,搜索引擎也一样认为是关联性非常强的,不一定非得把SEO培训完全体现。

3、整个网页与标题要保持一定的词控分布,简单说就是可以借助百度指数的需求图谱来进行词的扩展,也算是满足了搜索引擎对于网页的一种相关性计算,这种相关性计算会直接计算网页质量打分在里面。虽然有很多垃圾网站页面没有任何相关性,百度一样给予很好的排名,但是仔细去看,这种操作排名非常难稳定,而往往相关性强的网页排名稳定性更高。





全国服务热线:0571-87998705  
地址:浙江省杭州市 拱墅区(北部软件园)祥园路39-1号 5F

Copyright © 2015-2019  杭州壹一信息技术有限公司 版权所有 浙ICP备18009611号-1

壹一信息专注互联网营销策划推广,SEO优化网站建设万词霸屏整合网络营销,为广大企业提供一站式全方位网络推广服务!