01
前沿导读
据路透社新闻报道称,中国的技术团队正在针对大规模的老旧英伟达芯片进行修理维护工作。
现在中国团队所掌握的这些来自于英伟达的H100、A100芯片,都是在美国禁令实施之前所采购的老旧产品,由于美国的对华封锁,这些老旧芯片失去了英伟达官方的技术维护。#英伟达
深圳地区大约有十几家小公司针对英伟达的ai芯片进行维修服务,其每月的处理数量高达500次以上。
这种对老旧产品的技术维修,在一定程度上减轻了中国企业对于先进ai芯片的需求压力,使其可以继续采用美国的高算力芯片进行ai训练。#ai
02 产品修复 正常投入训练的GPU芯片,其综合寿命为2-5年,随后就需要官方对其进行维护保养。但是中国市场的A100、H100芯片长时间高负荷运行,极大压缩了寿命时间。Meta公司用1.6万张H100芯片组成的训练集群,曾经在54天内出现了400次的故障,其中大约有58%的故障都是因为硬件问题。 在美国颁布了芯片禁令之后,中国市场上面所存在的老旧英伟达芯片成为了唯一资源。 持续高负荷的工作负载,将会导致芯片出现损耗,例如干导热膏、风扇问题、PCB 上的组件疲劳以及 SXM 接口中的连接器引脚损坏或氧化。 以上只是算力芯片可能出现的情况,实际上还会出现更复杂的问题。例如电子系统故障、大型GPU或HBM封装下的焊点裂纹,甚至HBM内存退化。除了模具开裂、中介层分层等致命的硬件故障无法修复之外,其他的问题均可以通过技术手段进行修复。 对于这种外观破损的产品,英伟达官方也是不被列入保修范围之内的。 据网易科技所发布的新闻报告显示,一位在深圳从事芯片维修的商家自2024年开始涉足ai芯片的维修之后,门店每天的维修需求庞大,生意火爆。为了应对日益庞大的维修需求,该商家专门成立了一家新公司,专门处理ai芯片的维修订单,每个月大约要维修500块以上的英伟达芯片。 为了验证其维修的精准程度,商家的维修中心还配备了一个可以容纳256台服务器的机房,以此来对维修之后的ai芯片进行技术验证。 虽然中国企业已经推出了类似作用的ai级芯片产品,但是受制于性能和产能的劣势,使用英伟达芯片来训练ai依然是目前的主流选择。 03 市场需求