基于文本主题相似性的专题文献检索结果的聚类分析
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3772/j.issn.1000-0135.2011.05.002

基于文本主题相似性的专题文献检索结果的聚类分析

引用
在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一.本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中提供的论文主题相似性信息对检索到的文献记录进行聚类的方法,并对每个类别赋予类别标签.本文①利用生物医学权威文献数据库Medline,分别检索PubMed中有关脊髓损伤的部分文献(源文献),实际操作中我们抽取近两年发表的有关脊髓损伤的1906篇文献中前50篇;②利用PubMed中的"相关文献"功能分别检索出源文献的相关文献(共5108篇),筛选出频次较高的相关文献(出现频次大于或等于5次,共31篇);③形成源文献和相关文献的关联矩阵,根据该矩阵对来源文献进行聚类分析;④分别采用人工分析和主题词的向量空间模型算法提取各类的文献内容或类标签,初步评价分类结果的正确性.经过基于相似性的聚类分析,可以将脊髓损伤的源文献分为3个大类,对比人工分析和主题词向量空间模型方法对来源文献的内容提取,二者基本相符.就本文研究涉及的主题而言,利用文献数据库中提供的论文相关性信息对检索结果进行再次分类的方法是可行的.

相关文献、文本分类、聚类分析、脊髓损伤、向量空间模型、特征项频率、文档频率

30

B84;G35

2011-08-26(万方平台首次上网日期,不代表论文的发表时间)

共8页

456-463

相关文献
评论
暂无封面信息
查看本期封面目录

情报学报

1000-0135

11-2257/G3

30

2011,30(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn