DOI：10.3969/j.issn.1672-9722.2010.08.005

一个基于分层的网页文本过滤系统

引用

摘要：

设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析.实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征.实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%.

关键词：分层过滤、文本过滤、二元词串、抽取窗口

所属期刊栏目：38

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金90920004,60970056,60873150;江苏省自然科学基金BK2008160;江苏省高校自然科学重大基础研究项目08KJA520002

在线出版日期：2010-09-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：18-21

英文信息展示

期刊专题