收录的第一个环节就是抓取。抓取的过程是搜索引擎应用程序去抓取网站的网页,这里负责搜索引擎抓取网页职能的程序俗称蜘蛛( Spider),蜘蛛是一个形象的说法,因为互联网就是一张巨大的蜘蛛网,搜索引擎的程序通过网络不断地进行爬行和探索。每个互联网公司都有自己的抓取蜘蛛,比如百度蜘蛛(Baiduspider)、谷歌蜘蛛、搜狗蜘蛛等。
蜘蛛通过网站提交的Sitemap (网页地图)或者在互联网其他地方留下的页面URL信息,爬行到网站对应页面,然后沿着网站页面其他链接一层层往下爬行,发现更多的页面。
蜘蛛抓取网页是收录页面工作的上游,通过蜘蛛对网页的抓取,发现更多页面,同时知道哪些页面已经有了更新,从而实现对互联网页面的抓取和持续更新。
关于蜘蛛抓取系统的工作原理,可以参考百度蜘蛛抓取的说明。
简而言之,蜘蛛抓取系统包括链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider 通过这种系统的通力合作完成对互联网页面的抓取工作。
蜘蛛通过网站提交的Sitemap (网页地图)或者在互联网其他地方留下的页面URL信息,爬行到网站对应页面,然后沿着网站页面其他链接一层层往下爬行,发现更多的页面。
蜘蛛抓取网页是收录页面工作的上游,通过蜘蛛对网页的抓取,发现更多页面,同时知道哪些页面已经有了更新,从而实现对互联网页面的抓取和持续更新。
关于蜘蛛抓取系统的工作原理,可以参考百度蜘蛛抓取的说明。
简而言之,蜘蛛抓取系统包括链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider 通过这种系统的通力合作完成对互联网页面的抓取工作。
- 上一篇:应对蜘蛛抓取基本策略
- 下一篇: EO优化与关键词的联系