|
论文:
摘要:本文提出并评估了一种预测DRAM未纠正错误的方法,这是大规模HPC集群中硬件故障的主要原因。该方法使用随机森林分类器,该分类器使用MareNostrum 3超级计算机两年生产的错误日志进行训练和评估。通过使系统能够采取措施减少节点故障,我们的方法将损失的计算时间减少了57%,每年净节省21000个节点小时。我们以开源的形式发布所有源代码。我们还讨论并阐明了DRAM预测方法在实践中有用所必需的方法。我们解释了标准评估指标(如精度和召回率)不足的原因,并基于成本效益分析进行评估。这种方法有助于确保任何DRAM误差预测器都不受训练偏差的影响,并具有清晰的成本效益计算。 |
|