10.3969/j.issn.1008-0821.2021.11.001
科学论文全文语步自动识别研究
[目的/意义]科学论文的语步结构对于读者理解论文内容、快速定位特定信息具有重要作用.[方法/过程]本文对化学领域科学论文的语步自动识别方法进行了探索,比较了基于文本分类和序列标注两种解决模式以及机器学习和深度学习两种技术的多种语步识别模型的效果,并在此基础上提出了将深度学习预训练模型BERT与传统机器学习分类算法深度森林相结合的混合模型.[结果/结论]实验结果表明,文本分类模式的语步识别效果要优于序列标注模式;传统机器学习技术和深度学习技术的语步识别效果总体相近;通过将两者进行结合的混合模型可以获得更好的语步识别效果,在整篇论文7个语步类别上的宏平均F1值达到73%.
科学论文;语步识别;机器学习;深度学习
41
G250.76(图书馆学、图书馆事业)
国家社会科学基金重点项目"基于关联数据的学术文献内容语义发布及其应用研究"项目编号:17ATQ001
2021-11-09(万方平台首次上网日期,不代表论文的发表时间)
共9页
3-11