10.3969/j.issn.1673-629X.2019.03.003
融合知识图谱和ESA方法的网络新词识别
随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是文本中的网络新词识别与语义理解方面.为了克服传统方法无法识别网络新词及其语义的缺点,提出了一种融合知识图谱和显性语义分析(explicit semantic analysis,ESA)方法的网络新词识别方法.该方法以短语的粗粒度对原文进行切分来保留词语间的逻辑关系,利用百度知识图谱Schema匹配短语的语义表达后,再逐步以ESA方法分解剩余文本并将短语的百科信息提炼出核心语义词汇来补充Schema无法识别的部分.实验结果表明,与已有新词识别算法相比,该算法仅需要少量的语料库作为底层知识支撑,大幅降低了人工规则制订的成本,并提高了网络新词识别正确率与词语理解准确率.
语义识别、语义相关度、新词识别、知识图谱、显性语义分析
29
TP391.1(计算技术、计算机技术)
国家重点研发计划专项课题2017YFD0400101
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
12-17