(本科毕业设计)基于网络爬虫的数据分析系统的实现: 用 python2.7+Scrapy-Redis 分布式架构下的网络爬虫,用 json 编码+Cookies 池+搜索策略BFS+破解验证码+布隆过滤器+对抗AJAX, Redis 放于内存中去重队列并且实现断点继爬而 Mongodb 做磁盘持久化,数据采集微博移动版 web 用户信息关系数据等等共 400w 条数据.
weiyu666/Graduation_Design-Distributed_Web_Spider
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|