超大规模计算集群监控系统的设计与实现
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11871/jfdc.issn.2096-742X.2023.01.009

超大规模计算集群监控系统的设计与实现

引用
[背景]传统集群监控软件在性能、灵活性、可扩展性上无法满足超过10000节点的超大规模计算集群以及多集群系统的监控管理需求.[目的]亟需设计研发新型集群监控系统,提升超大规模计算集群和多集群的运行管理能力与效率.[方法]本文采用总分架构设计,利用消息中间件、分布式存储、REST技术实现了一种超大规模计算集群监控系统.[结果]该系统支持监控指标自定义、数据主动上发、自动告警等功能,具有良好的横向扩展能力.已部署于多套计算集群中,满足上万节点和设备的监控需求,日均采集数据逾200GB.[局限]由于监控指标繁多、监控数据量庞大,针对业务场景的数据关联分析能力有待提升.[结论]本文工作满足了超大规模计算集群及异地多集群系统的自动运管需求,采用的方法对更大规模集群甚至E级计算系统的运管工具的研发具有积极借鉴意义.

超大规模、计算、集群、HPC、监控

5

TP393;TN99;P208

中国科学院战略性先导科技专项XDA19020101

2023-05-09(万方平台首次上网日期,不代表论文的发表时间)

共7页

97-103

相关文献
评论
暂无封面信息
查看本期封面目录

数据与计算发展前沿

2096-742X

10-1649/TP

5

2023,5(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn