@@ -66,7 +66,7 @@ Urllib2:data为string
6666
6767相关参考:[ 网易新闻排行榜抓取回顾] ( http://www.lining0806.com/%E7%BD%91%E6%98%93%E6%96%B0%E9%97%BB%E6%8E%92%E8%A1%8C%E6%A6%9C%E6%8A%93%E5%8F%96%E5%9B%9E%E9%A1%BE/ )
6868
69- 参考项目:[ 网络爬虫之最基本的爬虫:爬取网易新闻排行榜] ( NewsSpider )
69+ 参考项目:[ 网络爬虫之最基本的爬虫:爬取网易新闻排行榜] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ NewsSpider)
7070
7171### 2. 对于登陆情况的处理
7272
@@ -107,7 +107,7 @@ response3 = requests_session.get(url_results) # 已登陆,因为之前拿到
107107
108108相关参考:[ 网络爬虫-验证码登陆] ( http://www.lining0806.com/6-%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB-%E9%AA%8C%E8%AF%81%E7%A0%81%E7%99%BB%E9%99%86/ )
109109
110- 参考项目:[ 网络爬虫之用户名密码及验证码登陆:爬取知乎网站] ( ZhihuSpider )
110+ 参考项目:[ 网络爬虫之用户名密码及验证码登陆:爬取知乎网站] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ ZhihuSpider)
111111
112112### 3. 对于反爬虫机制的处理
113113
@@ -189,7 +189,7 @@ def multi_open(opener, *arg):
189189
190190### 5. 多进程抓取
191191
192- 这里针对[ 华尔街见闻] ( http://live.wallstreetcn.com/ ) 进行并行抓取的实验对比:[ Python多进程抓取] ( Spider_Python ) 与 [ Java单线程和多线程抓取] ( Spider_Java )
192+ 这里针对[ 华尔街见闻] ( http://live.wallstreetcn.com/ ) 进行并行抓取的实验对比:[ Python多进程抓取] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ Spider_Python) 与 [ Java单线程和多线程抓取] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ Spider_Java)
193193
194194相关参考:[ 关于Python和Java的多进程多线程计算方法对比] ( http://www.lining0806.com/%E5%85%B3%E4%BA%8Epython%E5%92%8Cjava%E7%9A%84%E5%A4%9A%E8%BF%9B%E7%A8%8B%E5%A4%9A%E7%BA%BF%E7%A8%8B%E8%AE%A1%E7%AE%97%E6%96%B9%E6%B3%95%E5%AF%B9%E6%AF%94/ )
195195
@@ -210,7 +210,7 @@ Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字
210210
211211这里列出在给定城市列表后,使用selenium来动态抓取[ 去哪儿网] ( http://flight.qunar.com/ ) 的票价信息的代码。
212212
213- 参考项目:[ 网络爬虫之Selenium使用代理登陆:爬取去哪儿网站] ( QunarSpider )
213+ 参考项目:[ 网络爬虫之Selenium使用代理登陆:爬取去哪儿网站] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ QunarSpider)
214214
215215### 8. 验证码识别
216216
@@ -224,7 +224,7 @@ Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字
224224
225225可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别,将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功,可以再次更新验证码识别,直到成功为止。
226226
227- 参考项目:[ 验证码识别项目第一版:Captcha1] ( Captcha1 )
227+ 参考项目:[ 验证码识别项目第一版:Captcha1] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ Captcha1)
228228
229229** 爬取有两个需要注意的问题:**
230230
@@ -255,4 +255,4 @@ Scrapy是一个基于Twisted的开源的Python爬虫框架,在工业中应用
255255
256256相关内容可以参考[ 基于Scrapy网络爬虫的搭建] ( http://www.lining0806.com/%E5%9F%BA%E4%BA%8Escrapy%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%E7%9A%84%E6%90%AD%E5%BB%BA/ ) ,同时给出这篇文章介绍的[ 微信搜索] ( http://weixin.sogou.com/weixin ) 爬取的项目代码,给大家作为学习参考。
257257
258- 参考项目:[ 使用Scrapy或Requests递归抓取微信搜索结果] ( WechatSearchProjects )
258+ 参考项目:[ 使用Scrapy或Requests递归抓取微信搜索结果] ( https://github.com/lining0806/PythonSpiderNotes/tree/master/ WechatSearchProjects)
0 commit comments