DOI：10.3969/j.issn.1672-9722.2019.03.028

基于SNM算法的大数据量中文商品清洗方法

引用

摘要：

SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1].目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3].论文介绍数据清洗,对基于SNM算法对中文数据清洗的应用着重研究.先介绍传统的SNM算法,论述该算法的缺陷,针对缺陷进项改进,并提出实际中的应用场景.通过实验结果显示,在相似重复记录消除方面,SNM改进算法具有明显的优势.

关键词：SNM算法、数据清洗、重复记录

所属期刊栏目：47

分类号：TP301.6(计算技术、计算机技术)

在线出版日期：2020-01-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：625-627,661

英文信息展示

期刊专题