10.3969/j.issn.1000-3428.2009.14.012
HTML表格向XML的智能转换
XML已经成为处理与管理信息的标准格式,而HTML表格被广泛应用于Web.为了充分利用与管理HTML表格信息,需要将HTML表格转换成XML.提出一种有效的处理方法,该方法包含2个部分,即表格识别与结构转换.表格识别通过检查格式、语法及语义的特征将表格提取出来并分割成值域与属性域,使用预设的表格模板分析属性域与值域间的层次结构并将其转换成XML格式.通过 300多个表格的实验表明,所提出的方法要优于传统方法,结果的准确率达86.7%.
HTML表格、结构分析、规范化、信息提取、可扩展标记语言
35
TP311(计算技术、计算机技术)
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
32-34