基于最长顺序频繁词组的Web文献检索结构

引用

摘要：

目前,大多数Web文献不能满足不同层次科研人员的查询要求.分析了这一问题产生的原因,提出建立辅助的Web文献检索结构以帮助用户更准确地获取所需文献的思想.基于该思想,设计了通过挖掘最长顺序频繁词组抽取文献特征的算法,提出了能够表现特征之间、文献之间、特征与文献之间关系的扩展的特征层次树结构及其构建方法.实验表明,挖掘最长顺序频繁词组在抽取文献特征方面比常用的TFIDF具有更大的优势.理论分析说明,扩展的特征层次树具有压缩的存储结构、词组与文献关系的表现方式和更好的辅助检索功能.

关键词：最长顺序频繁词组、扩展的特征层次树、特征抽取、文本挖掘、信息检索

所属期刊栏目：17

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金s.60573090;60473073;60503036;教育部高校骨干教师资助计划

在线出版日期：2006-11-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：2096-2105

英文信息展示

期刊专题