基于差分编码的RDF分组压缩

引用

摘要：

语义网技术的发展使资源描述框架(RDF)的数据量迅速增长,导致其对存储空间与传输带宽的要求不断提高.现有的通用压缩方法和RDF专用压缩方法可以解决该问题,但仍存在数据冗余.为此,提出一种基于差分编码的RDF分组压缩算法.将RDF数据根据连接宾语的谓语组合进行分组,在消除宾语冗余的同时进一步减少谓语冗余.在此基础上,针对分组后得到的主语序列,通过引入差分编码技术进一步优化其存储空间.实验结果显示,与Plain、HDT和HDT++算法相比,该算法在结构化程度低的Archives Hub、Linkedmdb、rdfabout和DBpedia数据集中可获得平均17％的性能提升,在结构化程度高的dbtune数据集中可获得23％的性能提升,表明其对于不同结构化程度的数据集均具有较好的RDF压缩性能.

关键词：语义网、资源描述框架、结构化程度、数据压缩、差分编码

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;江苏省社科基金重点项目

在线出版日期：2021-01-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：117-123

英文信息展示

期刊专题