DOI：10.3969/j.issn.1009-3044.2012.23.009

基于n-gram中英文字符串分割算法实现

引用

摘要：

相似字符串的模糊查询是信息检索的重要组成部分,一直是人们研究的热点.目前基于关键词的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果.该文提出一种基于n-gram的中英文字符串分割技术的算法,该技术主要是对字符串进行中英文识别,然后基于n - gram按照指定长度进行分割,该技术是实现基于关键词的模糊查询技术的基础.该技术在数据清洗以及学位论文TMLC系统和垃圾邮件过滤等方面也有重要的应用前景.

关键词：模糊查询、n-gram、字符串分割、编辑距离、数据挖掘

所属期刊栏目：8

分类号：TP391(计算技术、计算机技术)

资助基金：福建省自然科学基金项目2010J01324

在线出版日期：2013-01-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：5530-5533

英文信息展示

期刊专题