大兵浅谈2022搜索引擎几大核心算法与专利解读( 四 )


解读:搜索引擎系统会提取网页正文内容,分析每个网页中的一个或多个句子找到其规律计算网页正文句子签名,并且这个签名内容是全网唯一的,如果你的这个签名在全网内容中出现的频率高,意味着这个网页内容是重复的,如果你的这个签名重复率不高,则意味着这个网页内容是原创不重复的,因此搜索引擎系统只需要判断网页签名内容的频率,频率越高内容重复度越高,频率越低内容重复度就越低 。
可以简单理解为网页签名内容频率越高,内容质量越低,网页关键词排名就越差,反之关键词排名就越好 。
以上就是大兵对于这条搜索专利技术简单的理解,具体如何实现的,可参考如下这张图 。

大兵浅谈2022搜索引擎几大核心算法与专利解读

文章插图

网页内容重复的判断系统已经是自动化运作了,如果你从A网站复制一段内容,B网站复制一段内容进行拼凑成一篇内容,这样的内容算不算高质量内容呢?其实无论你再如何拼凑,搜索引擎系统对网站内容的签名是改变不了的,搜索系统根据你的网页签名内容对比搜索引擎索引库内容进行对比,发现你的内容还是重复的,因为搜索引擎签名内容是不会变的 。
现在靠采集抄袭别人网站内容,来达到排名目已经很难实现了 。
3、用于处理点击行为数据的方法和装置的搜索专利技术
本搜索专利技术用于处理异常点击行为数据的方法、装置、电子设备和计算机可读介质,该方法具体实施方式包括:获取预设类别点击行为数据,点击行为数据包括点击页面地址及执行点击操作的设备标识,对预设类别的点击行为数据进行建模,生成设备标识与点击页面的地址之间的点击关系的模型,基于关系模型对设备标识和页面地址进行聚类,得到至少一个类簇,基于获取到的对至少一个类簇的搜索引擎优化行为检测结果,生成至少一个类簇中页面的搜索引擎优化行为的类别信息 。 该实施方式实现了页面的搜索引擎优化行为的检测,并且能够提升搜索引擎优化行为检测的效率 。
解读:早在2018年就有很多站长利用所谓快排技术,以虚拟点击方式增加网页虚拟点击及虚拟流量ip,试图通过点击的方式为网站带来虚拟流量,针对这种黑帽操作方法搜索引擎于是就发明了“用于处理点击行为数据的方法和装置”的搜索专利技术,利用这个搜索专利技术靠虚拟点击模拟人工点击是可进行识别出来的 。
该搜索专利技术具体运行原理如下图所示:

大兵浅谈2022搜索引擎几大核心算法与专利解读

文章插图
用于处理点击行为数据的方法和装置搜索专利技术具体运行原理
先获得正常用户点击的行为数据,然后对这些数据进行建模,生成一个特征设备标识,当下次网站点击行为与正常用户点击行为数据模型不一样的时候,系统就会判断你的网站可能存在一种非正常用户点击行为,例如你的网站正常流量为100IP,突然暴增到10000IP,此时系统就会判断你的网站流量暴增是不符合正常规律的,是存在恶意非人工的点击行为,系统会对你近期的流量数据与原始行为数据进行对比,找出你是不是通过点击算法作弊来实现你网站流量的暴增,搜索引擎系统会对这些点击行为数据进行分析,这些数据搜索引擎系统都可以进行判断识别的,因此你认为现在通过虚拟用户点击行为来达到关键词排名目的还可以行吗?
自2019年开始,黑帽优化站点陆续都被搜索引擎惩罚了,搞快排、买IP,买PV,买流量这些作弊方法都违返了正常用户点击行为数据,因此就很容易被搜索引擎算法命中,并对网站进行打击,被打击的直接表现是网站关键词排名突然间就没有了,为什么网站关键词排名突然没有了?因为你的的黑帽作弊优化方法命中了搜索引擎反作弊的系统,系统认为你在人为操控流量点击,这种情况就容易被搜索引擎算法打击,比如限制你网站内容展示,限制你网站关键词的排名,甚至直接你的网站关键词排到100名以后,这些都是搜索引擎对站点惩罚的表现,因此靠欺骗搜索引擎的黑帽优化方法建议大家远离,不要觉得你用黑帽优化方法目前搜索引擎系统还识别不到 。

相关经验推荐