10.3969/j.issn.1002-137X.2009.05.045
基于词频分布变化统计的术语抽取方法
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语.目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征.通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息采检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语.实验证明,该方法对低频术语和高频普通词串有较强的分辨能力.
术语抽取、机器学习、分布方差、知识获取、termhood、unithood
36
TU9;R39
国家863高技术研究发展计划项目2006AA01Z152;国家自然科学基金项目60672149
2009-06-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
177-180