10.3969/j.issn.1672-9722.2020.12.009
基于分布式ElasticSearch相似内容比对算法研究
文中提出了一种基于ElasticSearch分布式搜索引擎文本相似度比对优化方案,该方法在ElasticSearch搜索引擎自身文本比对模型(TF-IDF模型)的基础上进行优化,以提高文本比对的精确度.在优化方法中通过配置远程词典、热更新词库和修改文本比对模型等方式,实现了语义匹配、近义词匹配、段落替换匹配.同时解决了ElasticSearch中词序替换不能匹配、语义替换不能匹配、新词不能识别的问题.同时,基于ElasticSearch搜索语法,提出了一种动态调整特殊位置的文本权重以提高文本主题比对精确度的方法.另外,该优化方案搭建了ElasticSearch集群,实现了文本的可靠访问和分散多分片存储,从而提高系统高可用、低延迟和容灾能力.
ElasticSearch、相似内容比对、TF-IDF算法、语义匹配、热更新
48
TP311(计算技术、计算机技术)
2021-01-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
2843-2849