中文全文文件群集索引理論研究與實證 / A Theoretic and Empirical Research of Cluster Indexing for Mandarin Chinese Full Text Document

黃雲龍/Yun-long Huang

當前商業應用的全文檢索系統仍以字串比對的全文檢視法,配合布林查詢介面為主流,這種系統過於簡化電子文件檢索系統環境的形式與內容關係。本研究根據向量空間模型(VSM),探討索引詞彙的形式與文件內容關係,運用奇異值分解技術(SVD),建構中文全文文件的群集索引模型(CIM)。本文從兒童日報全文語料庫中選取醫藥新聞502篇文件,經由各項實驗設計初步獲致以下結論:CIM索引的效果優於傳統VSM,而且可以提昇其效能,達到具有權威控制機制下的索引效果。

24_5_cprsd