爬行和抓取 _蜘蛛

文章插图
爬行和抓取是搜索引擎工作的第一步，完成数据收集任务。
1、蜘蛛：
搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。
2、跟踪链接：
为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也是搜索引擎蜘蛛这个名称的由来。
3、吸引蜘蛛：
理论上蜘蛛能爬行和抓取所有页面，但实际上不能，也不会这么做。 SEO人员想要让自己的更多页面被收录，就要想方设法吸引蜘蛛抓取。
4、地址库：
为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。
5、文件储蓄：
【爬行和抓取】 搜索引擎蜘蛛抓取的数据存入原始页面数据库。其他的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都是这样一个独特的文件编号。

爬行和抓取

相关经验推荐

联想|4nm机皇？联想6000mAh旗舰确定，90W+18G高运存！

花呗的钱怎么转到支付宝余额花呗的钱怎么转到支付宝

揶揄什么意思什么叫揶揄？

三星|形势发生逆转？8G运存+256G+骁龙888，为销量三星只能接受降价

绵阳网约车运营证怎么办理绵阳网约车从业资格证在哪补办

红薯粉的功效与作用红粉的功效与作用

杀潜叶蛾用什么药最快，什么时候防治效果好

送给姐的祝福话语

粗眉毛怎么画

异戊烷？异戊烷沸点

宜昌市离婚后怎么买房？

审判之眼死神的遗言格斗之蛇小游戏成就达成技巧

敲好听的女生吃鸡名字捣蛋可爱鬼

倩碧黄油会过敏吗

王者荣耀S26钟无艳最强出装王者荣耀S26钟无艳怎么出装

茉莉的养殖方法和注意事项

电子温度计怎么调电子温度计怎么调时间

温州站和温州南站区别

梦幻西游：129级五开队伍选择，主流配搭及个性组合玩法

S24赛季貂蝉为何突然强势崛起，而且独居T0榜单，其实原因很简单