DOI：10.16208/j.issn1000-7024.2017.03.043

面向网络语言基于微博语料的新词发现方法

引用

摘要：

为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法.采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤.该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性.

关键词：新词发现、微博语料、互信息、词内部耦合度、外部统计量

所属期刊栏目：38

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金项目60743008;河南省重点科技攻关计划基金项目142102210045

在线出版日期：2017-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：789-794

英文信息展示

期刊专题