一种单词移动距离度量下的文档查询方法研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3778/j.issn.1673-9418.1709030

一种单词移动距离度量下的文档查询方法研究

引用
单词移动距离(word mover's distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover's distance,EMD)计算文档间的距离.然而,单词移动距离存在两个缺陷:第一点是它采用不够精确的词频来作为单词的权重;第二点是单词移动距离度量下的查询效率很低.为了改善应用单词移动距离时的效果,考虑到单词的重要性而采用TF-IDF(term frequency-inverse document frequency)评分作为单词权重,进而得到一种改进的单词移动距离(TI-WMD).为了提高单词移动距离度量下的文档查询效率,提出了一种近似的层次化查询方法.首先,依据文档的单词质心向量采用局部敏感哈希为文档集合构建哈希索引.在查询过程中,依据查询文档的单词质心向量和多探寻局部敏感哈希方法获得候选文档集,接着依据文档标签与过滤-细化框架在候选文档集中获得TI-WMD度量下的近似k近邻.在Reuters-21578和20-Newsgroups两个文档数据集上的实验结果表明,相对于WMD与PrefetchPrune方法,TI-WMD与层次化查询在准确性和效率上更具优势.

单词移动距离、推土机距离、局部敏感哈希、近似k近邻、层次化查询

12

TP311(计算技术、计算机技术)

The National Basic Research Program of China under Grant No. 2015CB352400;the National Natu-ral Science Foundation of China under Grant Nos. 61672455, 61472348;the Basic Public Welfare Research Project of Zhejiang Province under Grant No. LY18F020005

2018-12-14(万方平台首次上网日期,不代表论文的发表时间)

共11页

1718-1728

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学与探索

1673-9418

11-5602/TP

12

2018,12(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn