10.3969/j.issn.1000-3428.2007.02.016
自动提取含字母词语的领域新术语的研究
新术语的提取是中文信息处理领域的一个重要研究课题.针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语.该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词.实验表明了该方法的有效性及新术语的准确率分布特征.
专指语义串、长串优先、字母词语、中文信息处理
33
TP311(计算技术、计算机技术)
国家自然科学基金70271046
2007-03-12(万方平台首次上网日期,不代表论文的发表时间)
共3页
47-49