10.13266/j.issn.0252-3116.2020.06.013
英文科技论文摘要的语义特征词典构建
[目的/意义]论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析.如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题.[方法/过程]假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考.据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法.其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典.最后利用非结构式摘要测试集进行语义特征词典有效性检验.[结果/结论]结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型.
科技论文、论文摘要、结构要素、语义特征、特征词典
64
G254(图书馆学、图书馆事业)
2020-11-10(万方平台首次上网日期,不代表论文的发表时间)
共12页
108-119