基於主動式學習之古漢語斷句系統發展與應用研究/ Development and Application of an Ancient Chinese Sentence Segmentation System Based on Active Learning

徐志帆、張鐘/ Chih-Fan Hsu & Chung Chang

    本研究旨在開發支援數位人文研究之「基於主動式學習的古漢語文本斷句系統」,結合主動學習與機器學習演算法,透過人機合作模式降低建立自動化古漢語斷句建立模型時所需的訓練語料,並協助人文學者面對未解讀過的文獻能更有效率的進行斷句判讀作業。為了找出最合適建立「基於主動式學習的古漢語文本斷句系統」的的演算法與特徵模板,本研究設計第一個實驗採用了不同的演算法與特徵模板配合依序文本和主動學習兩種選擇文本方法所建立的斷句模型進行比較。實驗結果發現,條件隨機場(conditional random fields)與三字詞特徵模板在主動學習方法中能有效地進行學習,適合發展「主動學習斷句模式」。第二個實驗邀請人文專長領域的學者使用「基於主動式學習的古漢語文本斷句系統」進行古漢語文本的斷句判讀,以人文學者各自標註資料建立的斷句模型進行比較分析,並輔以半結構式訪談深度了解人文學者對於本研究發展之系統輔以斷句的使用感受與建議。實驗結果發現「基於主動式學習的古漢語文本斷句系統」確實能有效學習人文學者的斷句標註資料,並且模型預測能力能基於人機合作而不斷提升。最後,透過訪談結果歸納得知人文學者對於系統操作流程與介面具有正面評價,多數受訪者認為本系統的斷句預測功能在古漢語斷句上能提供有效之輔助功能。未來可考量增加命名實體模型或其他古漢語規則的特徵模板設計,以進一步提升斷句預測能力,也希冀能將發展的系統運用在人文領域教育上,發展為訓練古漢語斷句之數位人文教育平台。DOI: 10.6575/JILA.201912_(95).0004

95-04