10.3969/j.issn.1001-6600.2009.01.036
基于分块的网页主题文本抽取
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.
HTML、标签、网页分块、内容特征、信息抽取
27
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60473139,60775041
2009-05-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
141-144