10.3969/j.issn.1001-3695.2011.01.013
一种面向网络话题发现的增量文本聚类算法
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量.实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性.
话题发现、文本聚类、增量聚类、准确度、ICIT算法
28
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60903225
2011-04-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
54-57