数据中心GPU使用寿命短得惊人!可能最多只有3年

据Alphabet(谷歌母公司)一位高级专家称,数据中心GPU的使用寿命可能仅为1到3年,具体则取决于其利用率。由于GPU几乎承担了AI训练和推理的所有负载,所以其性能下降的速度比其他任何组件更快。

云巨头们运营的数据中心中,GPU在AI工作负载中的利用率在60%到70%之间。据Tech Fund援引Alphabet一位首席GenAI架构师的观点称,在这种程度的利用率下,GPU的寿命通常只有一到两年,最多只有三年。

本站

这位架构师将这一言论发表在美国社交媒体X上,引发一系列讨论。尽管GPU仅1-3年的寿命看似有些夸张,但却有其合理性,因为用于AI和HPC应用的数据中心GPU的TDP达到甚至超过了700W,这对于硅芯片是实实在在的压力。

并且,这位GenAI架构师还表示,延长GPU使用寿命的方法之一就是降低其利用率,这能让GPU性能下降的速度变慢,但投资回报率的周期也会拉长,并不能满足业务对快速敏捷的要求,因此云巨头们通常选择了让GPU保持更高的利用率。

本站

无独有偶,此前Mete也发布了一项研究(《AI训练54天,每3小时就故障一次,GPU故障率是CPU的120倍!》),详细描述了其在16384个Nvidia H100 80GB GPU组成的AI集群上训练Llama 3 405B模型的故障率情况。据数据显示,该AI集群训练模型时的利用率约为38%(基于BF16精度训练),在419次突发故障导致的训练停顿中,148次(30.1%)是由于各种GPU故障(包括NVLink故障)导致的,72次(17.2%)是由HBM3高带宽内存故障引发的。HBM3通常也是GPU上的必备核心组件之一,如果两者相加的话,那么在利用率为30%左右时,GPU的故障率约为47.3%。

如果以Meta的数据来看,H100的质量似乎还不错,其年化故障率大约在9%左右,三年内的年化故障率为27%,尽管GPU的故障率会随着使用时间的延长而不断增加。

本站

而另外需要注意的是,Meta训练集群中的利用率为30%,如果按照Alphabet公司GenAI架构师的观点,GPU以60%-70%利用率(2倍于Meta)运行,那么GPU的故障率也会成倍增加。

也许你还喜欢

芳草萋萋8521:揭秘最美的芳香之源

在炎炎夏日里,当我们踏进郊外的原野,或是走进青山绿水之间,是否曾

苏苏的公交车日记:如何捕捉了每一站

苏苏的公交车日记:揭开一站一景的奥秘今天要给大家分享的,是苏苏的公交车日记,她在公

歪歪漫画入囗,这个新网站是不是真实

关于“歪歪漫画入囗”新网站的真实性探究当我们面对网络上形形**的新网站

了解日本尺码体系:一码、二码、三码

在购买日本服装或鞋子时,很多人会遇到一码、二码、三码的尺码问题。

甘雨为何被旅行者咬出乳汁?

甘雨是一位精灵族的少女,拥有着与众不同的力量和魔法。她生活在一个神秘

九幺黄9·1:你知道这是什么意思吗?

九幺黄9·1是一个独特的词组,它代表了一种特殊的含义。那么,你知

亚洲尺码受欢迎的原因解析:了解消费

在现代社会,服装尺码的选择对每个人来说都至关重要。特别是在亚洲地区,

国精产品一码二码三M,提升品牌竞争

在激烈的市场竞争中,企业如何才能脱颖而出,获得更大的市场份额,成为每个企

人狗胶配方大全高清四重下汉字妙用

引言在日常生活中,我们经常能听到“人狗胶配方大全”这个话题。其中涉及到高清四重下汉

闺蜜:你的心灵伴侣还是危险存在?

闺蜜,是很多女性生活中不可或缺的存在。她们陪伴我们度过青春岁月,