DOI：10.3969/i.issn.1671-3079.2014.06.022

规则与统计相结合的中文新词识别研究

引用

摘要：

针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法.针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象.对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词.

关键词：新词识别、左右信息熵、内部词概率、平均互信息

所属期刊栏目：26

分类号：TP393.08(计算技术、计算机技术)

资助基金：山东省高校科技计划项目J12LN53

在线出版日期：2015-01-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：124-130

英文信息展示

期刊专题