基于文本块密度与标签路径等特征的正文提取
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.
正文抽取、文本块、标签路径、文本密度
35
TP391(计算技术、计算机技术)
广东省部产学研专项资金企业创新平台资助项目2013B090800042
2018-04-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
51-56