DOI：10.3969/j.issn.1008-0570.2006.21.071

针对小文本的Web数据挖掘技术及其应用

引用

摘要：

现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面.实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率.由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术.

关键词：智能搜索、Web数据挖掘、小文本、用户兴趣

所属期刊栏目：22

分类号：TP3(计算技术、计算机技术)

资助基金：国家自然科学基金60375001;高等学校博士学科点专项科研项目20030532004

在线出版日期：2006-09-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：203-205

英文信息展示

期刊专题