10.3969/j.issn.1007-130X.2009.11.023
并行作业容错自动调度环境设计
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序.基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法.测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费.
高性能计算、容错、checkpoint/restart、并行程序
31
TP302.8(计算技术、计算机技术)
国家自然科学基金资助项目60673150,60603061;国家863计划资助项目2008AA01Z137
2010-01-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
87-90