|
论文:
代码:
数据:
摘要:动态随机存取存储器(DRAM)错误普遍存在,并导致生产数据中心的服务器故障。然而,在DRAM误差测量的最新领域研究中,对DRAM误差和服务器故障之间的相关性知之甚少。为了填补这一空白,我们提出了DRAM错误和服务器故障之间的深度数据驱动相关分析,主要目标是基于DRAM错误特征预测服务器故障,从而实现生产数据中心的主动可靠性维护。我们的分析基于从阿里巴巴生产数据中心的300多万个内存模块收集的8个月数据集。我们发现,大多数服务器故障的可纠正DRAM错误仅在故障发生前的短时间内出现,这意味着服务器故障预测应在短时间间隔内定期进行,以便进行准确预测。我们还研究了服务器故障的各种影响因素(包括内存子系统中的组件故障、DRAM配置、可纠正的DRAM错误类型)。此外,我们还设计了一个基于机器学习的服务器故障预测工作流,并证明了基于DRAM错误特征进行服务器故障预测的可行性。为此,我们报告了14项测量和预测研究的结果。 |
|