云企logo

什么叫做网络蜘蛛爬虫?

更新日期:2021-01-13  

什么叫做网络蜘蛛爬虫?通俗解释:互联网类似于蜘蛛网,网络爬虫在其中不断的爬行抓取,就像是蜘蛛通过蛛网进行捕食,每当发现新的资源蜘蛛立即出动并对其进行抓取并将抓取到的内容存入数据库。网络蜘蛛(又被称为网络爬虫,网络机器人)是一种按照一定的规则,自动地爬行抓取互联网信息的程序或脚本。

网络爬虫的技术概述:

网络爬虫帮助搜索引擎从万维网上下载网页,是一个自动提取网页信息的程序,因此网络爬虫也是搜索引擎的重要组成部分。已知的网络爬虫分为传统爬虫和聚焦爬虫。

①传统爬虫

就像蜘蛛在蛛网上爬行,网页的URL就类似于相互关联的蛛网,网页蜘蛛从一些初始网页的URL开始,获得初始网页上的URL,在爬虫抓取网页的过程中,又不断从爬取到的页面上重新抽取新的URL放入预抓取队列,如此反复,直到满足系统的停止条件,*终停止抓取。

②聚焦爬虫

聚焦爬虫的工作流程较传统爬虫更为复杂,它根据网页分析算法过滤与初始抓取主题无关的URL,保留有用的链接放入预抓取队列,如此反复,直到达到系统的某一条件时停止。

通用的爬虫框架流程:

①首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL;将这些种子URL放入待抓取URL队列中;爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。

②然后将IP地址和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。

对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入己抓取URL队列中,这个队列记载了爬虫系统己经下载过的网页URL,以避免网页的重复抓取。

对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检査,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队歹!

③*后,在之后的抓取调度中会下载这个URL对应的网页,如此这般,形成循环,直到待抓取URL队列为空.

 

上一篇:导致关键词排名下降的原因有哪些?

下一篇:惊雷算法3.0即将上线 持续打击刷点击作弊行为
首页