10.3969/j.issn.1000-5641.2018.05.016
基于知识图谱和LDA模型的社会媒体数据抽取
社会媒体数据的抽取,是社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等研究和应用的基础,准确的抽取结果是数据分析有效性的重要保证.本文针对社会媒体数据的非结构、多主题特征,基于LDA(Latent Dirichlet Allocation)模型挖掘数据中的隐含主题,利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,实现对特定领域数据的抽取.建立在“今日头条”新闻数据和新浪微博数据之上的实验结果表明,本文提出的方法能有效地实现社会媒体数据的抽取.
社会媒体数据、数据抽取、隐含狄利克雷分配、知识图谱
TP311(计算技术、计算机技术)
国家自然科学基金61472345;云南大学青年英才培育计划WX173602;云南大学科研基金2017YDJQ06;云南大学研究生科研创新基金Y2000211
2018-11-21(万方平台首次上网日期,不代表论文的发表时间)
共12页
183-194