汉语否定与不确定覆盖域检测

引用

摘要：

自然语言文本中存在大量否定和不确定表述,识别这些信息并将其与确定性内容分离,对自然语言处理的下游应用,如信息抽取、信息检索、情感分析等,都具有十分重要的意义.与英语相比,面向汉语的否定与不确定覆盖域检测研究目前较为匮乏.提出了一个基于双向长短期记忆(bidirectional long short-term memory,BiLSTM)网络和条件随机场(conditional random fields,CRF)的融合模型,将覆盖域检测任务作为序列标注问题,针对给定的否定或不确定关键词,识别其在句子中的语义作用范围.该模型既具有LSTM(long short-term memory)网络能够利用前向与后向上下文信息的特性,同时又能够借助CRF层获取输出标签之间的依赖关系,这得益于该框架能够有效地对序列信息及长距离上下文依赖信息进行编码的优势.在CNeSp语料集上的实验结果验证了模型的有效性,其中,在金融新闻子数据集上,否定与不确定覆盖域检测准确率分别达到79.16％和76.79％,比目前基于传统机器学习的汉语覆盖域检测方法分别提升了25.06％和34.46％.

关键词：否定、不确定、覆盖域检测、BiLSTM-CRF模型、序列标注

所属期刊栏目：56

分类号：TP18;TP391.1(自动化基础理论)

资助基金：国家自然科学基金项目61703293,61672367,61751206

在线出版日期：2019-08-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1506-1516

英文信息展示

期刊专题