光學字元辨識古籍之全文轉置經驗:以明人文集為例 / Full Text Conversion Experience in Optical Character Recognition of Ancient Books: An Example of Ming Dynasty Literati Collections

林巧敏、蔡瀚緯 / Chiao-Min Lin  & Han-Wei Tasi

因應資訊技術的發展,加上數位人文研究對於全文內容分析的使用需求,運用光學字元辨識技術(OCR)將文本內容轉置為全文,可促進全文檢索與內容探勘使用。為瞭解利用 OCR 辨識軟體轉換古籍全文的可行性,本研究運用古籍文本進行實測分析,探討古籍運用 OCR 辨識的成效以及影響辨識率的原因。研究選取 40 種明代文集進行分析,研究結果顯示古籍版式與影像品質皆會影響 OCR 辨識率,尤其版式文字過於擁擠和影像品質不佳,較不利於OCR 處理,進而歸納出六種常見的辨識錯誤字形樣態,可提供典藏機構進行類似古籍版本全文轉置作業規劃之參考。DOI: 10.6575/JILA.202012_(97).0003

97-03