10.3969/j.issn.1002-137X.2008.05.035
基于概念获取的多文档主题划分研究
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值.当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果.本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题.实验结果表明该方法对多个相关文档的主题划分取得了良好的效果.
信息处理、知网、概念、主题聚类、主题划分
35
TP3;G35
国家发改委项目基金SNMCFIP-2006S001
2008-07-17(万方平台首次上网日期,不代表论文的发表时间)
共3页
131-133