10.3969/j.issn.1001-3695.2013.02.042
一种采用声学指纹去重的海量MP3文件存储架构
由于Hadoop自身并不适合海量小文件处理,目前的重复数据删除方法主要基于文件的二进制特征,无法识别经过信号处理后的同一首歌曲,也不能满足海量数据在线处理的要求.提出一种采用声学指纹去重的海量MP3文件存储架构,结合音乐文件自身的声学特性和MP3文件包含的元信息,通过索引、在线归并和NAF去重,很好地解决了小文件过多时内存瓶颈问题,同时提供了更好的去重效果;离线归并和副本调整模块根据系统的运行状况不断优化存储.实验结果表明,该架构在性能、去重率、可管理性和可扩展性方面达到了良好的平衡,极大地提高了去重率,与可变分块CDC相比,去重率提高了100%,具有良好的实用价值.
Hadoop、MP3、声学指纹、数据消重、存储架构
30
TP311(计算技术、计算机技术)
国家自然科学基金资助项目61070182,60873192
2013-04-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
472-475