scoresheet_parser

freelancer job

解釋成績單解析器程式執行流程:

程式語言:

python 3.7

作業系統:

linux

套件:

pdftotext (只支援linux作業系統)
re
pandas
jieba
sklearn
scipy

說明:

使用pdftotext套件，將所有的推甄資料的pdf檔案以純文字的格式讀取進來，接著使用正規表達式進行文字模板比對，抓取推甄資料中准考證號碼、系所編號、姓名、學校，及第一到五學期的校排百分比、組排百分比、班排百分比，共19筆資料，成功抓取完畢後，以pandas將結果整理成dataframe並輸出成excel檔案。然而，各校的推甄資料的成績單格式不一致，因此我以前一年度的推甄資料為範本，編寫多組不同的文字比對模板，各自針對某一種不同的成績單格式，共編寫了14組比對模板，其中有6組模板是處理有缺值的(成績單中缺少某些資料，導致無法完全獲得19筆資料)。

以上部分共處理78%的推甄資料(551/704)，剩餘的部分可能是因為pdf檔為影像格式，或是格式太過特殊，而改以人工判讀處理。為了輔助人工判讀處理，如果能將相似的成績單格式統整再一起，能夠大大的加快處理速度。

將成績單頁面轉成純文字後，使用jieba進行中文分詞，在計算tfidf，得到每個詞句對這份成績單文本的相對重要性，並以此資料進行Agglomerative Cluster分析，將相似的成績單分成同一組，再將同組的成績單放到同一份資料夾，附上已經填上准考證號碼與系所編號的模板excel檔案，進行人工判讀。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Dockerfile		Dockerfile
Execution.ipynb		Execution.ipynb
README.md		README.md
my_parser.py		my_parser.py
parse_pdf.ipynb		parse_pdf.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

scoresheet_parser

解釋成績單解析器程式執行流程:

About

Uh oh!

Releases

Packages

Uh oh!

Languages

even311379/scoresheet_parser

Folders and files

Latest commit

History

Repository files navigation

scoresheet_parser

解釋成績單解析器程式執行流程:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages