🚀 VivaTech Crawler

一个功能强大的Python工具，用于爬取VivaTech平台的创业公司信息，并提供AI驱动的数据分析和专业的Excel报告导出功能。

✨ 主要功能

🕷️ 智能爬虫: 自动爬取VivaTech平台创业公司数据
🤖 AI分析: 集成OpenAI API进行智能分析
📊 专业导出: 生成Excel/CSV格式的分析报告
⚙️ 灵活配置: 支持多种配置选项和参数调优

📦 快速安装

# 1. 克隆项目
git clone https://github.com/zhubinghui/vivatech-crawler.git
cd vivatech-crawler

# 2. 安装依赖
pip install -r requirements.txt

# 3. 开始使用
python cli.py crawl --workers 4

🚀 基本使用

# 爬取数据
python cli.py crawl --url "https://vivatechnology.com/partners?company_type=startup" --workers 4

# AI分析 (需要设置OPENAI_API_KEY)
python cli.py analyze

# 导出Excel报告
python cli.py export --output "reports/analysis.xlsx"

# 查看配置
python cli.py config

🛠️ 项目结构

vivatech-crawler/
├── config/          # 配置文件
├── crawler/         # 爬虫模块
├── database/        # 数据库管理
├── utils/           # 工具模块
├── AIAnalysis/      # AI分析
├── testcase/        # 测试用例
├── cli.py           # 命令行入口
└── requirements.txt # 依赖清单

🔧 配置说明

环境变量

OPENAI_API_KEY: OpenAI API密钥 (AI功能需要)

依赖说明

必需: selenium, webdriver-manager
可选: pandas, openpyxl (Excel功能), openai (AI功能)

🧪 测试

cd testcase
python run_all_tests.py

📄 许可证

本项目基于 MIT License 开源。

🤝 贡献

欢迎提交 Issue 和 Pull Request！

⭐ 如果这个项目对您有帮助，请给我们一个Star！

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.vscode		.vscode
AIAnalysis		AIAnalysis
config		config
crawler		crawler
database		database
logs		logs
testcase		testcase
utils		utils
.env.example		.env.example
.gitignore		.gitignore
GITHUB_RELEASE_CHECKLIST.md		GITHUB_RELEASE_CHECKLIST.md
LICENSE		LICENSE
README.md		README.md
check_db.py		check_db.py
cli.py		cli.py
enhanced_stage2_test.xlsx		enhanced_stage2_test.xlsx
init_structure.sh		init_structure.sh
install_playwright.py		install_playwright.py
latest_crawl_result.xlsx		latest_crawl_result.xlsx
pyrightconfig.json		pyrightconfig.json
requirements.txt		requirements.txt
test_export.txt		test_export.txt
test_export_with_data.xlsx		test_export_with_data.xlsx
test_h3_selector.py		test_h3_selector.py
view_data.xlsx		view_data.xlsx
view_database.py		view_database.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🚀 VivaTech Crawler

✨ 主要功能

📦 快速安装

🚀 基本使用

🛠️ 项目结构

🔧 配置说明

环境变量

依赖说明

🧪 测试

📄 许可证

🤝 贡献

About

Uh oh!

Releases

Packages

Languages

License

zhubinghui/vivatech-crawler

Folders and files

Latest commit

History

Repository files navigation

🚀 VivaTech Crawler

✨ 主要功能

📦 快速安装

🚀 基本使用

🛠️ 项目结构

🔧 配置说明

环境变量

依赖说明

🧪 测试

📄 许可证

🤝 贡献

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages