DOI：10.3969/j.issn.1000-7024.2012.02.027

维吾尔文网页正文抽取系统的研究与实现

引用

摘要：

从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法.该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文.整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷.实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性.

关键词：维吾尔文、网页正文抽取、语料库、文本句长特征、web文本挖掘

所属期刊栏目：33

分类号：TP391(计算技术、计算机技术)

资助基金：中国科学院"西部行动计划高新技术基金项目"KGCX2-YW-507

在线出版日期：2012-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：551-555

英文信息展示

期刊专题