DOI：10.3969/j.issn.1671-1122.2012.10.009

网页内容安全快速信息抽取方法

引用

摘要：

文章提出一种基于静态网页特征的文本信息抽取方法.该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取,再按照统一规范将结果顺序存储便于再处理.实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析.

关键词：信息抽取、网页内容、静态网页、文本信息

分类号：TP393.08(计算技术、计算机技术)

在线出版日期：2012-11-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：20-22

期刊专题