10.3969/j.issn.1003-0077.2011.01.010
一种基于LDA的潜在语义区划分及Web文档聚类算法
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正.与相关工作比较.该文不仅应用LDA模型表示文档.而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类.实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果.
LDA、潜在语义、语义分布、文档聚类
25
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60973019;国家863计划资助项目2009AA01Z131
2011-06-03(万方平台首次上网日期,不代表论文的发表时间)
共7页
60-65,70