面向检索服务的词干提取与相关排序优化研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-808X.2022.05.002

面向检索服务的词干提取与相关排序优化研究

引用
新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长.为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战.一方面,用户的查询词日益复杂,语言词汇形态变异的特点导致检索词变得多样化,而现有词干提取算法普遍存在词干提取不足、词干提取准确率不高等问题;另一方面,在海量数据中检索到满足用户查询要求的文档结果是一项非常耗时的任务,而现有将文档划分到多个服务器处理查询延迟的方法常常会出现尾延迟问题.针对以上问题,在文本预处理阶段,设计了词形规范化算法APS,对规则函数进行重编码,优化了特征词提取;在相关排序阶段,设计了基于一次一得分查询处理策略的随时排序算法SAR,在给定时间预算处理完指定数量倒排段后能够提前终止查询过程,大大减少了查询评估时间.在多个真实数据集上进行了实验,验证了APS算法对于提高词干提取准确率的有效性以及SAR算法对于控制查询延迟的真实性.

词干提取算法、随时排序算法、文本预处理、SAAT、相关排序

42

TP391(计算技术、计算机技术)

2022-11-07(万方平台首次上网日期,不代表论文的发表时间)

共12页

354-365

相关文献
评论
暂无封面信息
查看本期封面目录

桂林电子科技大学学报

1673-808X

45-1351/TN

42

2022,42(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn