一个功能强大的Python工具,用于爬取VivaTech平台的创业公司信息,并提供AI驱动的数据分析和专业的Excel报告导出功能。
- 🕷️ 智能爬虫: 自动爬取VivaTech平台创业公司数据
- 🤖 AI分析: 集成OpenAI API进行智能分析
- 📊 专业导出: 生成Excel/CSV格式的分析报告
- ⚙️ 灵活配置: 支持多种配置选项和参数调优
# 1. 克隆项目
git clone https://github.com/zhubinghui/vivatech-crawler.git
cd vivatech-crawler
# 2. 安装依赖
pip install -r requirements.txt
# 3. 开始使用
python cli.py crawl --workers 4# 爬取数据
python cli.py crawl --url "https://vivatechnology.com/partners?company_type=startup" --workers 4
# AI分析 (需要设置OPENAI_API_KEY)
python cli.py analyze
# 导出Excel报告
python cli.py export --output "reports/analysis.xlsx"
# 查看配置
python cli.py configvivatech-crawler/
├── config/ # 配置文件
├── crawler/ # 爬虫模块
├── database/ # 数据库管理
├── utils/ # 工具模块
├── AIAnalysis/ # AI分析
├── testcase/ # 测试用例
├── cli.py # 命令行入口
└── requirements.txt # 依赖清单
OPENAI_API_KEY: OpenAI API密钥 (AI功能需要)
- 必需: selenium, webdriver-manager
- 可选: pandas, openpyxl (Excel功能), openai (AI功能)
cd testcase
python run_all_tests.py本项目基于 MIT License 开源。
欢迎提交 Issue 和 Pull Request!
⭐ 如果这个项目对您有帮助,请给我们一个Star!