10.3969/j.issn.1003-0077.2021.05.001
基于小句复合体的句子边界自动识别研究
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定.该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型.实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果.
句子、小句复合体、句子边界识别
35
TP391(计算技术、计算机技术)
中央高校基本科研业务费专项北京语言大学研究生创新基金;国家自然科学基金
2021-05-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
1-8