基于语义分析和相似强度的微博热点发现方法
[目的]通过改进热点发现方法,解决传统方法存在的语义理解不足和聚类算法局限性的问题.[方法]从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出二次聚类算法方案,实现热点发现与更新,并使用相似强度的大小选取最优热点.[结果]该热点发现方法的查全率为91.3%,查准率为92.9%,较前人方法的聚类效果有所提高;该热点发现方法也可以更新数据,降低实验复杂度.[局限]实验数据的时间跨度较小,使得更新热点方法的效果不太显著.[结论]本文提出的热点发现方法具有良好的准确性.
潜在语义分析、相似强度、二次聚类、热点发现
G353(情报学、情报工作)
本文系国家自然科学基金项目“基于知识地图的对等网语义社区及其知识共享研究”项目编号:71103138、中央高校基本科研业务费专项资金资助项目“大数据背景下基于用户生成内容的商务智能模型研究”项目编号:BDY231414和横向课题北京TRS信息技术有限公司“员工知识管理共享系统”项目编号:hx0113060415的研究成果之一.
2015-05-28(万方平台首次上网日期,不代表论文的发表时间)
57-64