DOI：10.3969/j.issn.1003-6059.2014.02.007

基于微博内容的新词发现方法

引用

摘要：

新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.

关键词：新词发现、上下文熵、未登录词提取

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金项目60903107,61073071;国家863计划项目2011AA01A205

在线出版日期：2014-03-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：141-145

英文信息展示

期刊专题