Skip to content

even311379/scoresheet_parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

scoresheet_parser

freelancer job

解釋成績單解析器程式執行流程:

程式語言:

  • python 3.7

作業系統:

  • linux

套件:

  • pdftotext (只支援linux作業系統)
  • re
  • pandas
  • jieba
  • sklearn
  • scipy

說明:

使用pdftotext套件,將所有的推甄資料的pdf檔案以純文字的格式讀取進來,接著使用正規表達式進行文字模板比對,抓取推甄資料中准考證號碼、系所編號、姓名、學校,及第一到五學期的校排百分比、組排百分比、班排百分比,共19筆資料,成功抓取完畢後,以pandas將結果整理成dataframe並輸出成excel檔案。然而,各校的推甄資料的成績單格式不一致,因此我以前一年度的推甄資料為範本,編寫多組不同的文字比對模板,各自針對某一種不同的成績單格式,共編寫了14組比對模板,其中有6組模板是處理有缺值的(成績單中缺少某些資料,導致無法完全獲得19筆資料)。

以上部分共處理78%的推甄資料(551/704),剩餘的部分可能是因為pdf檔為影像格式,或是格式太過特殊,而改以人工判讀處理。為了輔助人工判讀處理,如果能將相似的成績單格式統整再一起,能夠大大的加快處理速度。

將成績單頁面轉成純文字後,使用jieba進行中文分詞,在計算tfidf,得到每個詞句對這份成績單文本的相對重要性,並以此資料進行Agglomerative Cluster分析,將相似的成績單分成同一組,再將同組的成績單放到同一份資料夾,附上已經填上准考證號碼與系所編號的模板excel檔案,進行人工判讀。

About

freelancer job

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published