可以帮助搜索引擎计算此文章页面字或词频,词频高则认为这个字或词很重要,自然给你的得分就会高,如果这个字或词频率低,那么此页页得分就会低,大家也可以根据以下TF-IDF公式进行理解:
【大兵浅谈2022搜索引擎几大核心算法与专利解读】

文章插图
以上公式主要针对计算文章页面字或词出现频率的解读,通过这个公式进行罗列,百度搜索和谷搜索都在用TF-IDF算法,下面大兵大家进行相应的解读 。
TF-IDF算法计算公式

文章插图
逆向文件频率(Inverse document frequency,IDF)IDF的主要思想是:如果包含词条文档越少,IDF越大,则说明词条具有很好的类别区分能力,某一特定词语的IDF,可以由总文件数目以包含该词语之件的数目,再将得到的商取对数得到 。

文章插图
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间的相关程度的度量或评级,除了TF-IDF以外,因特网上的搜索引擎还会使用基于连结分析评级方法,以确定文件在搜寻结果中出现的顺序 。

文章插图
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF 。 因此,TF-IDF倾向于过滤常见的词语,保留重要的词语 。
和道了“词频”和“逆文档频率”(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值,某个词对文章的重要性越高,它的TF-IDF值就越大,所以,排在最前面的几个词,就是这篇文章的关键词 。
下面就是这个算法的简单分享 。
第一步、计算词频

文章插图
第二步、计算逆文档频率

文章插图
如果一个词越常见,那么分母就越大,逆文档频率就越小越接见0,分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词) 。 logo表示对得到的值取对数 。
第三步、计算TF-IDF

文章插图
一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能够代表该文章,这也是就是TF-IDF的含义 。
关于“TF-IDF算法”原理详细解答,点击《TF-IDF算法解释,TF-IDF算法原理及公式》看这篇文章 。
有些站长看了以上TF-IDF算法原理的介绍,觉得既然文章内容中关键词的词频越高排名越好,那是不是可以向文章内容中加入大量的关键词,提高该关键词在该文章的密度呢?对于这种问题搜索引擎就推出了第二种算法BM25算法,主要针对的就是大家提出的关键词密度问题,下面一起来看看 。
(2)了解BM25算法
BM25算法其实是TFIDF相关性的升级版本,既然是关键词在文章中出现的频率越高排名越好,这就会导致大量站长作弊,例如在一篇文章中插入大量的关键词,提高该关键词在文章出现的频率,其实这种操作方法是正确的 。
人为故意增加关键词出现的频率属于作弊优化方法,于是搜索引擎就推出了BM25算法,对你文章内容中关键词的词频进行二次审核,审核文章内容中出现的高频关键词是否与文章具有相关性,例如文章出现的高频关键词与文章主题不相关,也不相匹配,那么搜索引擎就会判断这篇文章内容为作弊的文章,由此可见人为增加文章内容中关键词频率的方法是错误的 。
相关经验推荐
- 在SEO新生态下,2022年我们该如何做好搜索优化?
- 74年属虎48岁2022劫难 2020年摩羯座运势详解,2021年摩羯女转运
- 2022年必定遇到正缘星座 巨蟹座一生三次劫,六月的巨蟹不如七月的巨蟹
- 贵州高考时间2022年具体时间 2022贵州高考时间及科目安排
- 浅谈集水坑钢筋现场翻样的准确计算
- 金牛座十二月运势查询 金牛座1月运势2022年,2022年金牛座女每月运势
- 2022世界杯32强名单一览 2022世界杯国家队名单一览
- 2022年农历9月适合开业的日子是哪天 2022年农历9月开业吉日
- 「健康科普」2022全年健康养生月历来了!一定要收藏
- 湖南高考时间2022年具体时间 2022湖南高考时间及科目安排
