DOI：10.11925/infotech.2096-3467.2022.0402

面向被引片段识别的改进混合方法

全文直达

下载全文

在线阅读

引用

摘要：

[目的]"无监督排序+分类"模式的两阶段混合方法存在无监督排序可靠性较低、分类得到的被引句数量不稳定问题,并且被引片段的识别粒度仅限于单句.本研究对混合方法中的上述问题予以改进以提高其性能,同时解决不同粒度被引片段的识别问题.[方法]提出一种面向被引片段识别的改进混合方法,在第一阶段采用有监督排序从所有被引文献句中筛选出候选被引句,在第二阶段通过回归方法确定最终被引片段.此外,引入包含不同数量连续句子的n元句输入方式以及组内标准化方法以识别不同粒度的被引片段.[结果]在CL-SciSumm 2019和2020竞赛语料测试集上进行测评,本研究所提改进混合方法的句子重合度F1值为0.167;以3元句为输入,采用组内Z值标准化,其句子重合度F1值由0.083提高到0.158.[局限]未使用被引文献句的位置特征;在下游任务中的应用尚待探索.[结论]本研究所提改进混合方法在被引片段识别粒度为单句和多个连续单句时均取得良好效果.

关键词：科学文献、被引片段、有监督排序、回归、组内标准化

所属期刊栏目：7

分类号：G353;TP391(情报学、情报工作)

资助基金：国家社会科学基金17ATQ001

在线出版日期：2023-05-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：113-127

英文信息展示

期刊专题