环境:
python 3.7.1 64-bit
Opencv 4.1.0
Tesseract 5.0.0
文件:
main.py 主文件用于图像处理
typeimg.py 用于图像切割
TypeORC_BaiduAPI.py 百度ORC
TypeORC_Tesseract.py Tesseract ORC
decodeTest.py unicode编码转汉字
输出命名规则:
摹释_第一卷_页数_项_列数_行数.
例如:
m_01_0002_a_01 m_01_0002_b_01_01 m_01_0002_c_01_01
切割参考:
https://blog.csdn.net/AyonA123/article/details/72793151?tdsourcetag=s_pctim_aiomsg
章节页号:
名称 页码
01 0001 02 0189 03 0517 04 0777 05 1087 06 1401 07 1765 08 2031 09 2407 10 2645 11 2929 12 3177 13 3575 01 3719 02 3899 03 4147 04 4411 东京大学所藏 4619 苏德美日所见 4711 天理大学参馆 4759 小屯南地甲骨 4821 英国所藏甲骨 5223 怀特氏等所藏 5447 花园庄地甲骨 5581 瑞士斯德哥摩 5691 聊合书院图书 5701 谢氏殷墟遗文 5703 殷契拾掇三编 5705 北京大学珍藏 5721 上海博物馆藏 5819 殷墟甲骨辑佚 5831 甲骨缀合集续 5911 甲骨拼合集— 5967