汉语语篇零形式识别与填充方法研究

引用

摘要：

零形式识别与填充是在语篇上下文中为句中缺失的语义角色寻找填充项,然而采用分类思想预测集合中正确填充项的方法制约了零形式填充的性能.针对该问题,结合启发式规则与决策树算法识别出需要填充内容的零形式,将上下文中填充过框架元素的内容构成候选语集合,并通过改进的SMOTE算法对少数类样本数据进行扩展,解决了候选语集合数据的非平衡问题.在此基础上,借助汉语框架知识库提取语义相似性特征,利用框架元素间的映射关系提升零形式填充效果.实验结果表明,该方法在数据层面对填充样本的非平衡性进行处理,可使最终的F值提高约12％.

关键词：汉语框架网、零形式识别与填充、非平衡数据、语义特征、决策树算法

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金“面向汉语篇章语义分析的框架推理技术研究”;国家自然科学基金青年基金“基于事件的图文数据阅读理解关键技术研究”

在线出版日期：2020-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：79-86

英文信息展示

期刊专题