基于语义分析和相似强度的微博热点发现方法

引用

摘要：

[目的]通过改进热点发现方法,解决传统方法存在的语义理解不足和聚类算法局限性的问题.[方法]从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出二次聚类算法方案,实现热点发现与更新,并使用相似强度的大小选取最优热点.[结果]该热点发现方法的查全率为91.3％,查准率为92.9％,较前人方法的聚类效果有所提高;该热点发现方法也可以更新数据,降低实验复杂度.[局限]实验数据的时间跨度较小,使得更新热点方法的效果不太显著.[结论]本文提出的热点发现方法具有良好的准确性.

关键词：潜在语义分析、相似强度、二次聚类、热点发现

分类号：G353(情报学、情报工作)

资助基金：本文系国家自然科学基金项目“基于知识地图的对等网语义社区及其知识共享研究”项目编号:71103138、中央高校基本科研业务费专项资金资助项目“大数据背景下基于用户生成内容的商务智能模型研究”项目编号:BDY231414和横向课题北京TRS信息技术有限公司“员工知识管理共享系统”项目编号:hx0113060415的研究成果之一.

在线出版日期：2015-05-28（万方平台首次上网日期，不代表论文的发表时间）

页码：57-64

英文信息展示

期刊专题