最近因项目需要,需要爬虫FOFA里面数据进行数据统计分析,因此就有了本篇文章。
环境
描述环境为文章中所用到的所有技术以及中间件并非全部安装,可根据使用的规模进行调整使用。
语言:python2.7(必须)
模块:requests(必须)
操作系统:MacOS 10.13.4(非必须)
分布式消息队列管理:Celery(最后一节安装)
日志记录:logging(必须)
中间价:Redis(最后一节安装)/MySQL(必须)
数据库操作:pymysql(必须)/DBUtils(必须)
安装环境
1 | # 安装requests |
注:Windows安装Celery时最好安装3.1.25版本,不然可能会有意想不到的惊喜。
FOFA API
请求:https://fofa.so/api/v1/search/all
请求方式:GET
请求参数:
参数名称 | 参数类型 | 参数描述 | 是否必须 |
---|---|---|---|
string | FOFA pro账号邮箱 | 是 | |
key | string | FOFA pro账户登陆key | 是 |
qbase64 | string | FOFA查询语句base64编码 | 是 |
page | int | 页码,默认为第一页 | 否 |
size | int | 每页数量,默认100条 | 否 |
fields | string | 字段段列表,默认为host,用逗号分隔多个参数,如(fields=ip,title),可选的列表有:host title ip domain port country city | 否 |
响应:
参数名称 | 参数类型 | 参数描述 |
---|---|---|
mode | string | 查询模式 |
page | int | 当前页码 |
size | int | 请求返回结果的总数 |
results | array | 请求返回结果的详情数组 |
数据库设计
设计数据库存放FOFA爬虫数据,方便统计查询。
字段名称 | 字段类型 | 是否允许为空 | 描述 |
---|---|---|---|
id | int(11) | 否 | id自增 |
host | varchar(255) | 否 | host |
ip | varchar(255) | 否 | ip地址 |
port | varchar(255) | 否 | 端口号 |
protocol | varchar(255) | 否 | 协议 |
country_ name | varchar(255) | 是 | 国家名称 |
region_name | varchar(255) | 是 | 省份名称 |
city_name | varchar(255) | 是 | 城市名称 |
isp | varchar(255) | 是 | 运营商 |
fofa_sql | text | 否 | FOFA查询语句 |
create_date | datetime | 否 | 创建时间 |
update_date | datetime | 否 | 更新时间 |
sql语句
1 | DROP TABLE IF EXISTS `fofa_spider`; |
数据库sql文件:https://github.com/0nise/scripts/blob/master/fofa_spider.sql
小试牛刀
本节主要讲解可适用与一般的FOFA爬虫,如果需要大批量数据爬虫请您接着往下看。
环境
语言:python2.7
中间件:MySQL
第三方包:pymysql/requests/
场景:小规模爬虫/一般爬虫
通过查看FOFA API可以得知请求地址和参数,开局一句话功能全靠编。
请求中心
在发送大量的http请求时最好使用统一的HTTP请求中心,方便控制,代码重复利用,提高效率。
1 | session = requests.session() |
数据库存储
有了统一的请求中心接下来就该编写入库代码,将爬虫结果存入数据库中
1 | ''' |
核心业务代码
可以存入数据库中就该写核心的函数逻辑函数,输入参数仅为FOFA检索语句。
1 | ''' |
程序运行结果:
完整代码地址:https://github.com/0nise/scripts/blob/master/fofa_spider.py
注:运行脚本之前先配置相关配置信息(数据库/FOFA信息)
进阶
问题
针对一般的数据爬虫数据爬虫,上述方法可以完美适应。但如果需要爬虫的是为千万级别规模的数据上述方法就显得有点不行了,解决方案有一般有多线程/多进程/协程等。
思路
针对大规模数据爬虫,很多人想到的是多线程/多进程/协程等方案,但是这些方案的可扩展并不是很强,如果需要调整工具需要停止程序修改程序等,这里我的思路是使用生产者和消费的思路来处理。只需要对上述的代码做轻微修改就可以完美的适应大规模数据爬虫,这里我使用redis+celery的方式来实现。
Redis
Redis是一款开源的、高性能的键-值存储(key-value store)。它常被称作是一款数据结构服务器(data structure server)。
Redis的键值可以包括字符串(strings)类型,同时它还包括哈希(hashes)、列表(lists)、集合(sets)和 有序集合(sorted sets)等数据类型。 对于这些数据类型,你可以执行原子操作。例如:对字符串进行附加操作(append);递增哈希中的值;向列表中增加元素;计算集合的交集、并集与差集等。
为了获得优异的性能,Redis采用了内存中(in-memory)数据集(dataset)的方式。同时,Redis支持数据的持久化,你可以每隔一段时间将数据集转存到磁盘上(snapshot),或者在日志尾部追加每一条操作命令(append only file,aof)。
Redis同样支持主从复制(master-slave replication),并且具有非常快速的非阻塞首次同步( non-blocking first synchronization)、网络断开自动重连等功能。同时Redis还具有其它一些特性,其中包括简单的事物支持、发布订阅 ( pub/sub)、管道(pipeline)和虚拟内存(vm)等 。
Redis具有丰富的客户端,支持现阶段流行的大多数编程语言。
celery
简介
Celery(芹菜)是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。
任务队列
任务队列是一种在线程或机器间分发任务的机制。
消息队列
消息队列的输入是工作的一个单元,称为任务,独立的职程(Worker)进程持续监视队列中是否有需要处理的新任务。
Celery 用消息通信,通常使用中间人(Broker)在客户端和职程间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给职程,职程对消息进行处理。如下图所示:
Celery 系统可包含多个职程和中间人,以此获得高可用性和横向扩展能力。
架构
Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task result store)组成。
消息中间件
Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成,包括,RabbitMQ,Redis,MongoDB等,这里我先去了解RabbitMQ,Redis。
任务执行单元
Worker是Celery提供的任务执行的单元,worker并发的运行在分布式的系统节点中
任务结果存储
Task result store用来存储Worker执行的任务的结果,Celery支持以不同方式存储任务的结果,包括Redis,MongoDB,Django ORM,AMQP等,这里我先不去看它是如何存储的,就先选用Redis来存储任务执行结果。
官方文档:http://docs.celeryproject.org/en/latest/
中文笔记:http://www.cnblogs.com/forward-wang/p/5970806.html
修改
上面看不懂没关系,会用就行。
添加celery配置信息
1 | ''' |
添加核心函数
1 | ''' |
修改业务逻辑代码
1 | ''' |
完整代码地址:https://github.com/0nise/scripts/blob/master/fofa_spider_ext.py
运行
- 运行
python fofa_spider_ext.py
发送需要爬虫的任务信息 - 运行
celery -A fofa_spider_ext worker -l info
进行消费爬虫
运行成功
数据库信息