基于深度学习的人文社科专题数据库文本资源分类研究——以“新华丝路”数据库与“一带一路”专题库为例
文本资源是专题数据库建设的重要组成部分,亦是目前人文社科研究获取领域知识的主要途径.针对专题文本资源主题相近、内容专深、特征相似的特点,基于长短期记忆模型,提出一种融合注意力机制的人文社科专题文本资源分类模型.采用词向量完成样本文本数字化,利用长短期记忆模型进行语义特征提取,并引入注意力机制,突出关键短语以优化特征提取过程,最后采用Softmax给出专题文本分类结果.通过爬取“新华丝路”数据库与“一带一路”专题库的相关文本信息资源,对本文提出的模型的可行性和优越性进行验证,结果显示,融合长短期记忆模型与注意力机制的人文社科专题文本资源分类模型,在长短专题文本分类任务中表现都优于其他模型.
人文社科、专题数据库、专题文本分类、长短期记忆网络、注意力机制
G203(信息与传播理论)
本文系国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”18ZDA326
2020-11-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
23-29,37