10.11772/j.issn.1001-9081.2019030492
基于正则表达式的海量数据清洗系统
针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS).REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文件自动分拣问题等典型的6个问题找到数据的特点,其次根据数据的特点设置合适的正则表达式和预处理算法,然后使用算法模型去除数据中的错误完成数据预处理工作.同时详细阐述了REMCS的系统逻辑结构、常见问题、对应的解决算法和代码实现方案.最后通过对兼容的数据源文件格式、能够处理的问题种类、问题处理时间、处理数据极限值等4个方面进行对比,从几组常见的数据处理问题的对比实验可知,相较于传统的ETL工具,REMCS支持csv格式、json格式、dump格式等典型的9种文件格式,能够处理全部的6种常见问题,处理时间更短,能够支持的数据极限值更大.实验结果验证了针对受限应用场景下常见的数据处理问题,REMCS具有很好的适用性和准确性.
正则表达式、数据清洗、大数据、提取、变形、加载工具
39
TP391(计算技术、计算机技术)
国家科技重大专项2017ZX010132012017ZX01013201
2019-11-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
2942-2947