10.3969/j.issn.1000-565X.2016.05.020
基于OLDA的热点话题演化跟踪模型
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪.
文本处理、LDA话题模型、话题演化、话题跟踪、HTOLDA话题模型
44
TP391(计算技术、计算机技术)
国家科技支撑计划项目2012BAH18B05;国家自然科学基金资助项目61272447Supported by the National Science and Technology Support Program of China2012BAH18B05;the National Natural Science Foundation of China61272447
2016-09-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
130-136