10.11772/j.issn.1001-9081.2020040539
分布式环境下大规模资源描述框架数据划分方法综述
随着知识图谱的日益发展和在各个垂直领域的广泛应用,对于资源描述框架(RDF)数据的高效处理需求日益成为现代大数据管理领域中的新课题.RDF是W3C提出的用于描述知识图谱实体以及实体间关系的数据模型.为了有效地应对大规模RDF数据的存储和查询,很多学者考虑在分布式环境中管理RDF数据.RDF数据的分布式存储所面临的关键问题是数据的划分,而划分的结果很大程度上决定了SPARQL的查询性能.从数据划分的角度,主要围绕两类:基于图结构的RDF数据划分方法和基于语义的RDF数据划分方法展开深入阐述.前者包括多粒度层次划分、模板划分和聚类划分,适用于通用领域查询的语义范畴较为宽泛的场景;后者包括哈希划分、垂直划分和模式划分,更加适用于垂直领域查询的语义范畴相对固定的环境.此外,针对几种典型的划分方法进行对比与分析,为未来RDF数据划分方法的研究提供参考.最后,对未来RDF数据划分方法的发展方向进行了归纳总结.
资源描述框架、数据划分、分布式RDF数据存储、SPARQL查询、分布式数据库
40
TP311.133.1(计算技术、计算机技术)
国家重点研发计划项目2017YFC0405806,2018YFC0407901
2020-11-23(万方平台首次上网日期,不代表论文的发表时间)
共8页
3184-3191