10.3772/j.issn.1000-0135.2012.05.007
基于内容与结构语义相融合的XML检索结果聚类
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.
XML聚类、标签权重、节点层次、相关簇率、相关文档分布率
31
TP3;G35
国家自然科学基金项目60763001,60803105;国家社会科学基金项目07BTQ025;江西省教育厅科技项目重点项目GJJ08506,GJJ08507,GJJ09649
2012-07-19(万方平台首次上网日期,不代表论文的发表时间)
共11页
515-525