基于最小圆覆盖区域划分的索引过滤算法

引用

摘要：

过滤算法设计是信息内容安全处理系统中的一个重要环节,过滤速度成为衡量过滤系统性能的首要因素.索引结构是处理大规模数据的一种有效方式,但目前索引方法都是针对特定检索领域而设计,在实际过滤应用中,并不能满足过滤实时性需求.为了加快信息过滤中数据查询的判定速度,文中提出一种基于最小圆覆盖的区域划分方法,构建了适合过滤的索引结构:F-tree.该算法充分考虑实际过滤环境中正例(正常信息)多、反例(敏感信息)少的非平衡数据分布特性,利用最小圆覆盖划分方法得到最大否定判断区域.在查询阶段,正例以最大概率落入否定区域,根据否定性判定原理可以对正例快速否定判定,从而加快整体查询的判定速度.实验表明,与现有算法相比,所提出的算法减少了查询中的距离计算次数,有效提高了过滤查询性能.

关键词：过滤算法、最小圆覆盖、否定性判定、索引结构

所属期刊栏目：35

分类号：TP391(计算技术、计算机技术)

资助基金：国家"八六三"高技术研究发展计划项目基金2011AA010705,2012AA012502

在线出版日期：2012-12-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：2139-2146

英文信息展示

期刊专题