DOI：10.3969/j.issn.1007-757X.2016.07.014

基于Web挖掘和文档对象模型树的XML网页分类方法

引用

摘要：

Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法.首先,收集XML网页的文本信息.然后,对XML文本进行去冗余操作,并提取网页源代码.再后,利用DOM树结构进行标签提取,创建知识库.最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页.实验结果表明,提出的方法在各种XML网页下获得了97％的整体准确度.

关键词：XML网页分类、Web挖掘、文档对象模型树、标签匹配

所属期刊栏目：32

分类号：TP393(计算技术、计算机技术)

资助基金：四川省高校重点实验室项目2014WZY05;四川省智慧旅游研究基地规划项目ZHY15-01

在线出版日期：2016-10-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：47-49,52

英文信息展示

期刊专题