專題演講

2021/05/13(Thu)     10:30 -11:30    P101會議室1st Floor(P101 meeting room)

Title

科技與人文的交界—談機械學習在拉丁文手稿辨識系統之開發及應用

Speaker

Dr. Sheng-Yen Lu

Institutum Iurisprudentiae Academia Sinica

Abstract

此演講淺談如何將科技應用在歷史學的研究,討論機器學習在辨識古文獻手稿上
的應用與發展。以講者正在開發的拉丁文手稿辨識程式為例,如何透過機器學習
的方法學習並抓取在中世紀羊皮紙手稿上的拉丁文。此程式分作三階段開發:檔
案去背、關鍵字抓取、以及全文辨識。第一階段目的為淨化欲辨識圖檔,因羊皮
紙照片檔上有許多背景雜音;將雜音去除後,檔案將轉換至白底黑字以利辨識進
行。第二階段目的為抓取關鍵字,透過建立小規模訓練集,讓機器學習如何抓取
特定關鍵字,並於第三階段建立初步案件檢索系統與索引供其他研究者使用。此
程式為第一個試圖辨識英格蘭中世紀法庭紀錄的嘗試,期許其能提供經驗於未來
辨識各項歷史書寫,並進一步促進科學及人文研究間的交流。