10.13705/j.issn.1671-6841.2018315
一种大规模并行作业运行故障快速定位方法
基于状态获取的故障信息,对可能导致作业运行失败的原因事件进行分类和严重等级分级,进而通过问题规模及其关联关系,提出了一种针对批量大规模并行作业运行故障的快速分析定位方法.该定位方法由上而下、逐层排查故障原因,缩小故障的处理范围,有效解决了大规模作业运行过程中故障定位难且准确性差的问题,为运行管理人员排查故障提供帮助.
故障定位、并行作业、高性能计算、大规模、关联关系
51
TP387(计算技术、计算机技术)
国家重点研发计划项目2016YFB0201100
2019-12-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
102-109