10.19678/j.issn.1000-3428.0053582
大规模异构计算集群的双层作业调度系统
高能物理计算平台中的 HTCondor 和 SLURM计算集群为多个高能物理实验提供数据处理服务,然而HTCondor并行作业调度效率较低、SLURM难以应对大量串行作业,且计算平台整体资源管理及调度策略过于简单.为满足高能物理计算集群高负荷运行的需求,在传统作业调度器上增加作业管理层,设计双层作业调度系统,通过高效调度串并行作业并兼顾实验组间资源的使用公平性,实现用户对作业的细粒度管理.测试结果表明,双层作业调度系统支持大批量高能物理作业的快速提交,并充分利用计算平台的总体资源,具有较好的作业调度性能.
计算集群管理、作业调度器、高通量计算、高性能计算、高能物理计算
46
TP319(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金青年基金
2020-03-28(万方平台首次上网日期,不代表论文的发表时间)
共9页
187-195