爬行和抓取


爬行和抓取

文章插图
爬行和抓取 是搜索引擎工作的第一步 , 完成数据收集任务 。
1、蜘蛛:
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider) , 也称为机器人(bot) 。
2、跟踪链接:
为了抓取网上尽量多的页面 , 搜索引擎蜘蛛会跟踪页面上的链接 , 从一个页面爬到下一个页面 , 就好像蜘蛛在蜘蛛网上爬行那样 , 这也是搜索引擎蜘蛛这个名称的由来 。
3、吸引蜘蛛:
理论上蜘蛛能爬行和抓取所有页面 , 但实际上不能 , 也不会这么做 。 SEO人员想要让自己的更多页面被收录 , 就要想方设法吸引蜘蛛抓取 。
4、地址库:
为了避免重复爬行和抓取网址 , 搜索引擎会建立一个地址库 , 记录已经被发现还没有抓取的页面 , 以及已经被抓取的页面 。
5、文件储蓄:
【爬行和抓取】 搜索引擎蜘蛛抓取的数据存入原始页面数据库 。 其他的页面数据与用户浏览器得到的HTML是完全一样的 。 每个URL都是这样一个独特的文件编号 。

    相关经验推荐