古籍文本抽词研究
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响.现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词.试验从古籍文本<齐民要术>中提取普通语词和专有名词(包括书名、地名、人名官职名)3 000多个,表明此试验方案基本可行.
古籍数字化、N-gram、自动分词、实义词
52
G252.7(图书馆学、图书馆事业)
2008-05-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
132-135