DOI：10.11925/infotech.2096-3467.2020.1006

一种面向科技文献元数据增量数据规范的多模式匹配算法

引用

摘要：

[目的]针对期刊文献元数据日增的小规模数据,设计一种基于Hash的多模式匹配算法,对其机构信息利用大规模的模式集进行规范化.[方法]使用Hash定位模式串,减少对系统内存的占用;抽取模式串的首个单词/字结合Word跳步匹配,减少匹配次数,加大跳转幅度,从而提升多模式匹配的效率.[结果]以CSCD机构库182万条数据作为模式集的实验中,该算法与Aho-Corasick(AC)算法对比,能够较为快速地构建模式集对应的字典;在字符集规模约为1万条时,有更优越的时间性能,尤其是英文语料下有9.39％时间性能的提升;与Wu-Manber(WM)算法相比,该算法不受最短模式串限制.[局限]针对不同的模式集和字符集,需要对算法或数据进行调整;该算法及其拓展的无首词模式,均不适用于模式集较小、字符集较大的场景.[结论]该算法可以应用于中文、英文、中英混合的文本,在模式集较大(106级)、字符集较小(1万左右)的情况下,有超越经典算法AC算法(0.08％-30.41％)和WM算法时间性能的表现.

关键词：模式匹配;数据规范化;名称规范;哈希算法

所属期刊栏目：5

分类号：TP391(计算技术、计算机技术)

资助基金：本文系中国科学院文献情报能力建设项目项目编号:Y9100901

在线出版日期：2021-08-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：135-144

英文信息展示

期刊专题