资源整合软件

目的

网络上的爬虫大多只支持单一功能，相同网站需要的不同信息不能随意搭配。不同网站的信息也不能自由组合在同一个爬虫文件内。故想开发一款支持模块儿化自由组合爬取数据的软件。锻炼技术，并为数据分析提供资料。

库的说明

所有网站按照类型分到不同的文件夹（作为每个小模块儿的开发），最终成品放在项目文件夹中，并配有使用文档。

每个阶段的构想

第一阶段：

输入：程序内编写好。
工作：构建每个网站的的网页爬取。
输出：保存的html文件。

第二阶段：

输入：（同一页面内）选择需要提取的信息。
工作：将每个网站网页的内容，构建提取信息的模块儿。
输出：
- 图片资源：输出图片文件夹。
- 文本资源：输出文本文件夹。
- 视频资源：输出视频地址表格。

第三阶段：

输入：不同网站，不同页面。任意组合提取信息。
工作：跨网站整合信息。
输出：同上。

第四阶段：

搭建简单的GUI让不懂编程的人也能使用。
（可选）搭建网站。

当前进展

用到的技术

python编程基础
静态网页爬取
request 库的使用

感谢

说明

警告：本软件代码请合法使用，由此产生的任何法律问题与本人及开发者无关。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
图片爬取网站		图片爬取网站
文字爬取网站		文字爬取网站
综合网站		综合网站
视频爬取网站		视频爬取网站
项目文件		项目文件
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

资源整合软件

目的

库的说明

每个阶段的构想

第一阶段：

第二阶段：

第三阶段：

第四阶段：

当前进展

用到的技术

感谢

说明

About

Uh oh!

Releases

Packages

yuanshaohui/python_resource_collection

Folders and files

Latest commit

History

Repository files navigation

资源整合软件

目的

库的说明

每个阶段的构想

第一阶段：

第二阶段：

第三阶段：

第四阶段：

当前进展

用到的技术

感谢

说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages