10.12141/j.issn.1000-565X.180203
基于层次聚类的子话题检测算法
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.
话题模型、子话题、层次聚类、隐狄利克雷分布、话题检测
47
TP391.1(计算技术、计算机技术)
国家科技支撑计划项目2012BAH18B05;国家自然科学基金资助项目61272447,61802271,81602935;四川省科技厅计划项目16ZHSF0483
2019-09-23(万方平台首次上网日期,不代表论文的发表时间)
共12页
84-95