大兵浅谈2022搜索引擎几大核心算法与专利解读( 三 )



大兵浅谈2022搜索引擎几大核心算法与专利解读

文章插图

以上搜索核心算法较深奥,适合做搜索算法研究和工具工发类站长研究,SEO站长们可作为课外资料学习了解,不需要深究 。
3、百度搜索专利技术解析
搜索算法是搜索引擎内部核心运作的一个系统,我们可以通过搜索引擎官方发布的一些专利去研究解读搜索引擎专利技术,研究出来对我们SEO搜索排名有哪些帮助,这个我们也是需要进行了解的 。
虽然搜索专利技术的多少代表着搜索引擎公司的核心市场竞争力,搜索专利越多意味着他们掌握着搜索核心技术越多,一个做搜索引擎公司的技术如何,我们看这个搜索引擎公司有多少搜索专利技术就知道了 。
我们通过研究搜索引擎的专利技术,可帮助我们更好的了解搜索引擎,从而帮助我们实现更好的SEO效果 。
百度搜索大概有70多个搜索专利技术,下面我们给大家解读几个重点的搜索专利技术 。
前面我们说过一篇网页可以通过词频获得更高的得分,从而获得网页关键词排序的优先权,那么百度搜索引擎如何知道词频内容是不是我们特意加的呢?关于这个问题百度就发明了以下这个专利技术 。
1、对话内容连贯性的判断方法、装置以及设备的搜索专利技术
本发明提出一种对话内容连贯性的判断方法,包括:将上文语句输入至语句生成模型中,生成下文语句:
计算每个上文语句与当前语句之间的相似度,以构建第一相似度矩阵;
计算每个下文语句与当前语句之间的相似度,以构建第二相似度矩阵;
将第一相似度矩阵和第二相似度矩阵分别输入至连贯性判别模型中,生成当前语句的连贯性特征参数,连贯性判别模型是基于神经网络构建的 。 利用连贯性判别模型和语句生成模型相结合的方式,来解决对话内容连续性问题,可以从语义的维度比对两个句子的连贯性,推送给用户回复连贯性且优质的回复 。 本发明还提供了一种对话内容连贯性的判断装置以及设备 。
对“对话内容连续性的判断方法、装置以及设备”搜索专利技术解读:
(1)“本发明提出一种对话内容连贯性的判断方法”
解读:意思是判断你网页内容是否连贯,对于这个搜索引擎是有一套专业的搜索算法能够发现识别你的网页内容是否连贯,例如你的网页内容上部分讲的是“红烧肉如何做”,而下部分内容却讲的是“女人如何穿搭衣服才更好看”,这样的内容就属于典型的上下内容不连贯不相关 。
(2)“计算每个上文语句与当前语句之间的相似度,以构建第一相似度矩阵;计算每个下文语句与当前语句之间的相似度,以构建第二相似度矩阵;将第一相似度矩阵和第二相似度矩阵分别输入至连贯性判别模型中,生成当前语句的连贯性特征参数”这代表的意思是什么呢?
解读:搜索引擎截取你网页内容第一段,再截取你网页内容第二段,两段内容进行相似度的对比,生成一个特征码,再用这个特征码进行判断文章内容之间是否存在关联性 。
2、一种网页重复的判断系统及其判断方法的搜索专利技术
本发明专利公开了一种网页重复判断系统及判断方法 。 该判断方法步骤是:先提取网页正文内容;从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;根据网页正文句子签名对多个网页进行聚类;针对每一类下的网页,计算网页的附加签名;根据附加签名判断每一类下的网页是否重复 。 通过上述方式,网页重复判断系统及判断方法利用网页正文句子签名在内的多维度签名有效且快速地判断网页是否有重复 。

相关经验推荐