一款强大的多格式文档转换工具,支持PDF、DOCX、Markdown和TXT格式互转,具有智能排版和OCR识别功能。
A powerful document format conversion tool that supports conversion between PDF, DOCX, Markdown and TXT formats, with smart formatting and OCR recognition capabilities.
- 多格式支持:PDF、DOCX、Markdown、TXT格式互转
- 智能排版:自动优化文档布局和格式
- OCR识别:自动识别PDF中的文字内容
- 批量转换:支持多文件批量处理
- 跨平台:支持Windows、macOS和Linux系统
- Python 3.6+
- PyQt5
- docx
- pdfplumber
- pytesseract (OCR功能需要)
- PIL/Pillow
- reportlab
-
克隆仓库
git clone https://github.com/XD06/File-Conversion.git -
安装依赖
pip install -r requirements.txt -
运行程序
python file_convert-f.py
OCR功能需要安装Tesseract OCR引擎:
- Windows: https://github.com/UB-Mannheim/tesseract/wiki
- macOS:
brew install tesseract - Linux:
apt-get install tesseract-ocr
- 选择输入文件(支持多选)
- 选择输出格式(PDF/DOCX/Markdown/TXT)
- 设置输出目录
- 选择是否启用OCR和智能排版
- 点击"开始转换"按钮
欢迎提交Issue和Pull Request来改进这个项目!
Feel free to submit issues and pull requests to improve this project!
MIT License