10.3969/j.issn.1007-130X.2014.03.005
基于多属性的海量Web数据关联存储及检索系统
传统的Web数据检索一般采用全文检索方法,该方法具有很好的灵活性,但舆情分析往往需要获得相关的网页属性及统计信息.针对传统的Web检索方法无法满足上述需求,基于Hadoop平台设计并实现了一种基于多属性的海量Web数据的关联存储及检索系统,为舆情分析提供基础检索与统计服务.主要实现HDFS上基于属性的网页数据的分类和聚类存储,解决小文件存储同时提高数据访问吞吐量;建立原始网页数据与属性数据之间的关联映射;基于HBase的已有索引机制,结合分布式本地索引机制解决基于HBase的动态属性多条件选择查询的辅助索引问题.
分类存储、多条件选择查询、关联映射、辅助索引
36
TP391.3(计算技术、计算机技术)
国家863计划资助项目2012AA011004;清华大学自主科研项目基金20111081023
2014-04-17(万方平台首次上网日期,不代表论文的发表时间)
共7页
404-410