基于熵的音频指纹检索技术研究与实现
介绍了一种基于熵的音频指纹检索技术,该技术采用音频的熵特征作为音频的指纹特征(AFP),在检索中,该指纹特征可以用多种串匹配算法进行信息比对.实验采用最大公共字串(LCS)、编辑距离(Levenshtein Distance)和动态时间规整(DTW)算法实现指纹特征匹配,并采用一定数量的歌曲文件作为实验的测试集.每首歌曲都有一个带有不同的较大失真的音频文件或由不同歌唱家演唱的不同版本,这些带有不同的较大失真的音频文件由原曲经过不同的严重音频处理得到,比如添加噪声、加快速度、剪辑等.实验结果显示,使用的3种匹配算法均可以将训练集中所有的歌曲正确地识别出来,从而证明了基于熵的音频指纹检索技术具有准确性、鲁棒性、区分性等优良性质.
音频指纹、检索、熵、最大公共子串、编辑距离、动态时间规整
44
TP391(计算技术、计算机技术)
基于人声检测及分离的多版本流行音乐检索关键技术研究NSFC61171128
2017-12-27(万方平台首次上网日期,不代表论文的发表时间)
共6页
551-556