超级计算系统互连网络带内管理的实现与评测
互连网络是超级计算系统的关键部件,其易管理性将直接影响整个系统的 RAS 特性(可靠性、可用性和服务性)。“天河二号”超级计算系统采用了定制的高速互连网络,该网络由大约5856块网络交换芯片 NRC 和18304块网络接口芯片 NIC 构成,其互连规模极其巨大。为了实现对系统内众多网络芯片及其端口的高效率配置和监控等管理操作,该互连网络采用了基于带内的网络管理技术。该文描述了带内网络管理的设计与实现,具体包括网络管理功能、网络管理总体结构、带内管理描述符格式与报文处理流程、管理软件的总体框架等。基于部署在国家超级计算广州中心的实际系统,该文对“天河二号”互连网络带内的管理进行了测试,测试结果证明了带内管理的高效性。
超级计算系统、互连网络、带内管理、天河二号
39
TP393(计算技术、计算机技术)
国家“八六三”高技术研究发展计划项目基金2012AA01A301,2013AA014301,2013AA01A208资助.
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)
共16页
1717-1732