10.3772/j.issn.1000-0135.2013.11.005
TValue术语抽取法
提出TValue术语抽取法.为提高召回率,将词性固定搭配规则改为首尾词性规则.为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdness的对比领域,提出重要度.基于三个假设:术语库具代表性、文档可交换、文档中术语可交换,构建了TValue术语抽取法.首先,基于首尾词性规则进行词串抽取.然后,计算词串的首尾词性度、词长度、独立度、停用度、重要度,以及五属性组合值TValue.最后识别TValue高于术语可信度的词串,来选择获选术语.能源行业的中文术语抽取实验结果表明,该方法可有效的抽取低频术语、非名词术语,准确率约为84.08%,召回率约为94.49%.
术语抽取、术语识别、能源行业、数据挖掘、技术监测
32
TP3;H12
技术基础科研项目Q172011A001
2014-03-10(万方平台首次上网日期,不代表论文的发表时间)
共10页
1164-1173