10.3969/j.issn.1009-3044.2012.23.009
基于n-gram中英文字符串分割算法实现
相似字符串的模糊查询是信息检索的重要组成部分,一直是人们研究的热点.目前基于关键词的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果.该文提出一种基于n-gram的中英文字符串分割技术的算法,该技术主要是对字符串进行中英文识别,然后基于n - gram按照指定长度进行分割,该技术是实现基于关键词的模糊查询技术的基础.该技术在数据清洗以及学位论文TMLC系统和垃圾邮件过滤等方面也有重要的应用前景.
模糊查询、n-gram、字符串分割、编辑距离、数据挖掘
8
TP391(计算技术、计算机技术)
福建省自然科学基金项目2010J01324
2013-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
5530-5533