嵌套数据记录列表页的Web信息抽取
在已有嵌套数据挖掘算法的基础上,加人了数据区域挖掘算法,根据构造出的嵌套数据列表页的标签树,找出所有的数据区域,再对数据区域进行统一处理,对所有子树应用部分树对齐算法进行匹配,生成全局模式,进而抽取出所有数据记录.与原算法相比,改进后的算法在确保准确性的基础上,有效地提高了原算法在处理多数据区域时的效率.
嵌套数据、列表页、标签树、数据区域、全局模式
43
TP301.6(计算技术、计算机技术)
辽宁省自然科学基金资助项目,编号20071004
2011-08-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
20-23