DOI：10.3969/j.issn.1007-5321.2008.01.007

Internet中的新词识别

引用

摘要：

针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.

关键词：新词识别、关联规则、时间函数、分词碎片

所属期刊栏目：31

分类号：TP311(计算技术、计算机技术)

在线出版日期：2008-05-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：26-29

英文信息展示

期刊专题