10.3969/j.issn.1000-7024.2014.06.023
结合seeds集和LDA的半监督文本聚类算法
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA.Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致.在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度.
机器学习、半监督学习、文本聚类、潜在狄利克雷分配、算法
35
TP301.6(计算技术、计算机技术)
国家自然科学基金项目60863005、61262006、61202089;贵州省科学技术基金项目黔科合J字[2012] 2125号、黔科合J字[2012] 2172号;贵州大学引进人才科研基金项目贵大人基合字2011 14号、贵大人基合字2011 15号;贵州大学创新基金项目研理工2013039
2014-07-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
1994-1998