面实体匹配的集成学习CatBoost方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

面实体匹配的集成学习CatBoost方法

引用
现有的面实体多指标几何匹配方法在计算综合相似度和确定最终匹配实体时面临着指标权重和阈值难以科学量化的难题,集成学习算法通过构建并结合多个机器学习器来完成学习任务,在解决分类问题时体现出了较为明显的性能优势.为此,本文提出了一种基于集成学习算法CatBoost的面实体匹配方法,将匹配问题转化为分类问题.选取形状、面积、方向和位置4个几何特征作为模型分类特征;利用过采样与欠采样相结合的混合重采样技术减轻原始训练样本的类别不平衡度;借助贝叶斯优化算法确定CatBoost模型的最优超参数;引入可解释人工智能领域的SHAP解释框架从全局和局部两个角度解释各输入特征对匹配结果的影响.在青藏高原的面状湖泊数据上对本文提出的方法进行了验证,实验结果表明:对模型预测影响最大的特征是位置,然后依次是面积、形状,影响最小的特征是方向.CatBoost匹配方法在实验数据集上的查准率、查全率和Fl-score分别达到0.9937、0.9753和0.9844,相比于直接使用样本不均衡的原始样本进行模型训练,分别提高了约5.8%、0.6%和3.3%.与传统的面实体多指标双向匹配方法和逻辑回归、K近邻、决策树、神经网络等常规机器学习分类算法相比,集成学习算法CatBoost性能表现更加优异,在避免指标权重和阈值设置难题的同时取得了较好的匹配结果.

面实体、相似性、匹配、集成学习、CatBoost、类别不平衡、贝叶斯优化、SHAP

24

TP391.4;TP181;TN951

科技基础资源调查专项;河南省高等教育教学改革研究与实践重点项目

2023-01-03(万方平台首次上网日期,不代表论文的发表时间)

共14页

2198-2211

相关文献
评论
暂无封面信息
查看本期封面目录

地球信息科学学报

1560-8999

11-5809/P

24

2022,24(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn