基于LDA和语步标注的主题识别与分析方法研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11871/jfdc.issn.2096-742X.2023.05.009

基于LDA和语步标注的主题识别与分析方法研究

引用
[目的]从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性.[方法]采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析.[结果]以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入.[局限]主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词.[结论]本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度.

LDA模型、语步标注、主题短语、主题分析

5

TP391;R135;U463.343

北京市农林科学院创新能力建设专项;智库型农业情报研究与服务能力提升;面向科研管理的情报研究与服务能力提升;国家新闻出版署农业融合出版知识挖掘与知识服务重点实验室开放基金

2023-11-06(万方平台首次上网日期,不代表论文的发表时间)

共12页

107-118

相关文献
评论
暂无封面信息
查看本期封面目录

数据与计算发展前沿

2096-742X

10-1649/TP

5

2023,5(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn