Skip to content

zhubinghui/vivatech-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🚀 VivaTech Crawler

一个功能强大的Python工具,用于爬取VivaTech平台的创业公司信息,并提供AI驱动的数据分析和专业的Excel报告导出功能。

✨ 主要功能

  • 🕷️ 智能爬虫: 自动爬取VivaTech平台创业公司数据
  • 🤖 AI分析: 集成OpenAI API进行智能分析
  • 📊 专业导出: 生成Excel/CSV格式的分析报告
  • ⚙️ 灵活配置: 支持多种配置选项和参数调优

📦 快速安装

# 1. 克隆项目
git clone https://github.com/zhubinghui/vivatech-crawler.git
cd vivatech-crawler

# 2. 安装依赖
pip install -r requirements.txt

# 3. 开始使用
python cli.py crawl --workers 4

🚀 基本使用

# 爬取数据
python cli.py crawl --url "https://vivatechnology.com/partners?company_type=startup" --workers 4

# AI分析 (需要设置OPENAI_API_KEY)
python cli.py analyze

# 导出Excel报告
python cli.py export --output "reports/analysis.xlsx"

# 查看配置
python cli.py config

🛠️ 项目结构

vivatech-crawler/
├── config/          # 配置文件
├── crawler/         # 爬虫模块
├── database/        # 数据库管理
├── utils/           # 工具模块
├── AIAnalysis/      # AI分析
├── testcase/        # 测试用例
├── cli.py           # 命令行入口
└── requirements.txt # 依赖清单

🔧 配置说明

环境变量

  • OPENAI_API_KEY: OpenAI API密钥 (AI功能需要)

依赖说明

  • 必需: selenium, webdriver-manager
  • 可选: pandas, openpyxl (Excel功能), openai (AI功能)

🧪 测试

cd testcase
python run_all_tests.py

📄 许可证

本项目基于 MIT License 开源。

🤝 贡献

欢迎提交 Issue 和 Pull Request!


如果这个项目对您有帮助,请给我们一个Star!

About

🚀 A Python tool for scraping VivaTech startup data with AI-driven analysis

Resources

License

Stars

Watchers

Forks

Packages

No packages published