Skip to content

yuanshaohui/python_resource_collection

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

资源整合软件


目的

网络上的爬虫大多只支持单一功能,相同网站需要的不同信息不能随意搭配。不同网站的信息也不能自由组合在同一个爬虫文件内。故想开发一款支持模块儿化自由组合爬取数据的软件。锻炼技术,并为数据分析提供资料。

库的说明

所有网站按照类型分到不同的文件夹(作为每个小模块儿的开发),最终成品放在项目文件夹中,并配有使用文档。

每个阶段的构想

第一阶段:

  • 输入:程序内编写好。

  • 工作:构建每个网站的的网页爬取。

  • 输出:保存的html文件。

第二阶段:

  • 输入:(同一页面内)选择需要提取的信息。

  • 工作:将每个网站网页的内容,构建提取信息的模块儿。

  • 输出:

    • 图片资源:输出图片文件夹。
    • 文本资源:输出文本文件夹。
    • 视频资源:输出视频地址表格。

第三阶段:

  • 输入:不同网站,不同页面。任意组合提取信息。
  • 工作:跨网站整合信息。
  • 输出:同上。

第四阶段:

  • 搭建简单的GUI让不懂编程的人也能使用。
  • (可选)搭建网站。

当前进展

  • 阶段一
    • 文字网站
    • 视频网站
    • 图片网站
  • 阶段二
  • 阶段三
  • 阶段四

用到的技术

  1. python编程基础
  2. 静态网页爬取
  3. request 库的使用

感谢

说明

警告:本软件代码请合法使用,由此产生的任何法律问题与本人及开发者无关。

About

制作一个模块儿化资源收集程序

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published