DOI：10.3969/j.issn.1003-0077.2022.12.006

一种细粒度的汉语语义角色标注数据集的构建方法

引用

摘要：

语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集.目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务.为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系.在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集.截至目前,该工程一共完成了9550条汉语语句的语义角色标注,其中含有9423个中枢语义角色,29142个主要周边语义角色,3745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注.我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验.实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据.

关键词：语义角色、细粒度语义标注、汉语语义角色标注、汉语语义分析

所属期刊栏目：36

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;国家重点研发计划;国家自然科学基金;北京市科技新星计划交叉学科合作课题

在线出版日期：2023-02-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：52-66,73

英文信息展示

期刊专题