爬虫的分类_AAA研究院.在线教程网站

首页 » 课程中心 » Python 网络爬虫

搜索

Python 网络爬虫

网络爬虫概述

网络爬虫是什么

为什么使用爬虫

爬虫的分类

热门标签

爬虫的分类

2021-01-29,88

从爬取对象来看，爬虫可以分为通用爬虫和聚焦爬虫两类。

通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬取范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低。例如我们常见的百度和谷歌搜索。我们输入关键词，它们会从全网去找关键词相关的网页，并且按照一定的顺序呈现给我们。

聚焦网络爬虫（Focused Crawler），是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬取特定的网页，爬取的广度会小很多。例如我们需要爬取东方财富网的基金数据，我们只需要针对东方财富网的页面制定规则爬取就行。

通俗地讲，通用爬虫就类似于一只蜘蛛，需要寻找特定的食物，但是它不知道蜘蛛网的哪个节点有，所以它只能从一个节点开始寻找，遇到节点就看一下，如果有食物就获取食物，如果这个节点指示某某节点有食物，那它就顺着指示去寻找下个节点。而聚焦网络爬虫就是这只蜘蛛知道哪个节点有食物，它只需要规划好路线到达那个节点就能获取到食物。