10.3969/j.issn.1003-6059.2014.02.007
基于微博内容的新词发现方法
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.
新词发现、上下文熵、未登录词提取
TP391.1(计算技术、计算机技术)
国家自然科学基金项目60903107,61073071;国家863计划项目2011AA01A205
2014-03-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
141-145