百度搜索引擎工作原理( 二 )


5、重复url的过滤
? ? ? ? spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中 。 判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待 。
6、暗网数据的获取
? ? ? ? 互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据 。 一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取 。 目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等 。
7、抓取反作弊
? ? ? ? spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统 。 例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等 。
谷歌官方搜索引擎原理视频介绍

相关经验推荐