10.3969/j.issn.1003-0077.2012.03.012
基于词典信息的先秦汉语全文词义标注方法研究
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作.该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的务件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机( SVM)的半指导方法对《左传》进行全文的词义标注.按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%.该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料.
词义消歧、义项标注、古汉语、自然语言处理
26
TP391(计算技术、计算机技术)
先秦文献词汇知识挖掘资助项目2010JDXM023;211项目"先秦汉语词汇统计与知识检索";国家社会科学基金资助项目10&ZD117,10CYY021,08BYY054
2012-07-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
65-71,103