10.3321/j.issn:1002-8331.2004.16.042
基于标记树表示方法的页面结构分析
页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用.文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法.在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能.
WEB页面布局、页面结构、信息抽取
40
TP391(计算技术、计算机技术)
2004-07-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
129-132