10.3772/j.issn.1000-0135.2009.03.007
领域特征词的提取方法研究
本文提出领域特征词(Domain Feature,DF)的概念,将其定义为:描述领域的最恰当的词语.由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFs).为提高领域特征词集提取的效率和结果的客观性,本文给出一种以人机交互方式从自然语言语料库中提取的方法.该方法综合了长度优先切词算法和领域隶属度分析算法,前者保证召回率,后者提高准确率.实验证明,给定合适前景语料与背景语料,该方法能够显著提高领域特征词集构建的性能.领域特征词及其提取方法可以广泛地应用于信息和情报处理领域.
领域特征词、领域隶属度、长度优先切词
28
TS2;R44
国家高技术研究发展计划863计划资助项目2008AA04Z107
2009-06-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
368-373