10.3969/j.issn.1007-757X.2016.07.014
基于Web挖掘和文档对象模型树的XML网页分类方法
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法.首先,收集XML网页的文本信息.然后,对XML文本进行去冗余操作,并提取网页源代码.再后,利用DOM树结构进行标签提取,创建知识库.最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页.实验结果表明,提出的方法在各种XML网页下获得了97%的整体准确度.
XML网页分类、Web挖掘、文档对象模型树、标签匹配
32
TP393(计算技术、计算机技术)
四川省高校重点实验室项目2014WZY05;四川省智慧旅游研究基地规划项目ZHY15-01
2016-10-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
47-49,52