编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) AMD的芯箱即旗舰AI GPU加速器
,被曝软件存在大量bug
,片被曝软平替几乎无法用于训练AI模型?有技术! 这事挺让人意外的大量打脸,因为它可是无伟达AMD用来阻击霸主英伟达的一张王牌。 去年12月,法开AMD在自家的用难于“Advancing AI”活动中
,首次宣布推出了MI300X,成英称优成被其性能比英伟达的曾发栈 H100 足足高出 60%! 一年过去了 ,苏妈已经投产的免费模板缺陷AMD MI300X是否真有当时宣传的那么强劲? 技术分析公司SemiAnalysis发了一份真实 、详尽的芯箱即报告,感觉太打脸了……他们对 @NVIDIA H100/H200 GPU 和 @AMD MI300X 的片被曝软平替性能进行了比较,揭开了发布会数据与现实的有技术残忍鸿沟
! 这份报告有多真实呢?大量打脸报告中一点拐弯抹角也没有 ,直接说:AMD 的软件体验充满了 bug,使得 MI300X 的开箱即用训练几乎不可能。 报告中还给了个细节:这份历时五个月的调查报告,服务器租用本来计划几个月前就发布——但都被AMD的软件bug给生生耽误了 ! 报告团队直接联系了 AMD技术人员一起debug
!“为了让 MI300X 的表现不因软件栈的 bug 而受限
,我们花费了大量时间定位和修复 AMD 软件的 bug,而非仅仅展示开箱性能问题
。” 报告中提到:我们与 AMD 的反复互动旨在确保我们的测试能够客观地评估实际用户可能遇到的体验。 这个体验差不说。主要问题是,香港云服务器不是所有用户都有机会联系上AMD副总裁解决这些bug吧…… 看来,英伟达的“CUDA护城河”依然稳稳的很安心
。 MI300X暂时无法匹敌对手的芯片
,报告说,AMD的改进仍有许多的工作要做,”如果软件没有实质性的改进
,AMD可能会进一步落后
,尤其是在Nvidia即将推出下一代Blackwell芯片的源码下载情况下 。” 那么AMD的MI300X关键问题有哪些?我们梳理了这份报告的Key Findings ,然后看看已经囤了AMD卡的该如何“补救”一下。 SemiAnalysis团队透露 ,他们和苏姿丰会面谈了1.5个小时,并向苏妈给了很多的建议
。 苏妈承认 AMD 软件栈中存在缺陷。并且也大方回复,表示听劝
。亿华云 我们详细看看报告中AMD MI300X 问题的部分 : 需要查看完整报告的朋友
,地址在这里↓
:https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/ 虽然AMD GPU的软件栈有硬伤,但也不是完全无解的 。 Hacker News上热议的一篇技术博客,讲解了他们如何使用机器学习编译技术 ,让AMD能和NVIDIA的卡掰掰手腕 。 通过机器学习编译(MLC)技术
,在性能优化和自动化配置上解决了AMD GPU在软件层面的主要缺陷 。 最终实现的效果:能在AMD GPU 上使用 ROCm 部署 LLM ,而且性能极具竞争力! 通过他们的 MLC-LLM 项目 ,AMD Radeon RX 7900 XTX 的推理性能已经接近 NVIDIA RTX 3090 Ti 的 94%,并达到 RTX 4090 的 80%。 通过机器编译技术,复杂的手动优化工作实现了自动化。巧妙解决了AMD用户手动设置大量环境变量(如几十个)来优化性能的痛点。 MLC-LLM 项目做到这些的核心原理有三: 关于具体实现方法,请跳转该博客进行阅读:https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference 这篇技术报告揭露的问题,让我们看到了发布会和现实的差距。 一位前NVIDIA的技术人员说 ,“除了实验性硬件规格之外,还有许多事情要做”
。 Nvidia的CUDA生态已然是修好的高速公路 ,一路畅通;而AMD的生态目前仍像是一条坑坑洼洼的乡村小路——开发者需要花很多时间修路 。 AMD的消费级 GPU 基于 RDNA 架构 ,而数据中心级 GPU 基于 CDNA 架构,预计到 2026 年, AMD 才会发布统一的 UDNA 架构
。 在AMD修路的时候
,英伟达的工程师还在加班加点,通过新功能、新库和性能更新来加深护城河。 在如此深的护城河下,没有英伟达的平替。
图片一
、“如果不是AMD工程师帮助 ,其效能会远低于Nvidia”
图片二、机器学习编译技术 ,让AMD变得更“好用”
图片三、写在最后
:英伟达的领先态势还将继续
图片
图片