一种基于重复串的STC改进算法
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重.实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性.
网页去重、STC算法、重复串
25
TP393.092(计算技术、计算机技术)
2014-07-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
206-208
点击收藏,不怕下次找不到~
网页去重、STC算法、重复串
25
TP393.092(计算技术、计算机技术)
2014-07-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
206-208
国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”
国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304
©天津万方数据有限公司 津ICP备20003920号-1
违法和不良信息举报电话:4000115888 举报邮箱:problem@wanfangdata.com.cn