10.11896/j.issn.1002-137X.2017.010.016
大型高能物理计算集群资源管理方法的评测
高能物理数据由物理事例组成,事例之间没有相关性.可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景.高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下.SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案.在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性.
资源管理系统、作业调度器、计算集群、高吞吐量计算、高能物理计算
44
TP319(计算技术、计算机技术)
国家自然科学基金项目11475210
2017-11-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
85-90