10.3321/j.issn:1002-8331.2007.21.048
一种基于大规模语料的新词识别方法
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词.通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域.
新词、邻接类别、单字成词概率、双字耦合度
43
TP311(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318109;中国科学院知识创新工程项目20056550
2007-08-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
157-159