平头哥发布首款智能网卡「磐脉 920」，补齐 AI 算力最后一块短板

GPU 买了那么多，跑起来却像「堵车」？

作者｜苏子华

编辑｜郑玄

最近两年，AI 行业最热的词一直绕不开「算力」。

从大模型训练，到今年 Agent 的火热，再到各家云厂商不断扩建智算中心，行业讨论最多的，几乎都是 GPU、芯片和算力规模。好像只要卡够多，AI 就能继续往前跑。

但现实并不是。

不少做大模型训练和推理的人，已经越来越明显地感受到另一层问题：机器越来越贵，GPU 越来越强，但模型训练和推理的效率，却没有同步提升。

问题不一定出在算力本身，而可能出在另一件长期被忽视的事情上——网力。

平头哥产品总监李旭慧打了个比方：「如果把算力比作 AI 时代的石油，网力就是输油管道。算力提供动力，网力保障效率。」

4 月 28 日，在数字中国建设峰会上，平头哥发布首款智能网卡磐脉 920。这是国内首个内置 PCIe Switch 的 400G 智能网卡，最大支持 400Gbps 吞吐带宽，可应用于万卡智算集群、通算集群和高性能存储等场景，目前已经量产，并将率先部署在阿里云数据中心。

磐脉 920 想要解决的就是「网力」问题。

今天的大模型训练，一个训练任务，往往需要几千甚至上万张 GPU 同时协作。单张 GPU 性能再强，也必须跟整个集群保持同步。

问题在于，只要其中一部分节点慢下来，其他节点就只能等待。他观察到，目前行业里很多万卡级智算集群，GPU 实际利用率较低，「能做到 60%，已经算行业顶尖水平。」

过去行业更容易关注「有多少卡」，但实际在 AI 训练场景中，系统运行效率并不是由最强的硬件决定，而是受限于集群里最慢的那个节点。「领先节点的算力会持续闲置等待，造成大规模算力浪费。」

磐脉 920 的发布实际上也指明了一个方向：当 GPU 已经足够强之后，下一步到底该补哪里。

01

一张网卡，盘活整个智算集群

当 AI 智能体开始进入真实业务场景，推理业务的占比越来越高。

「在 Agent 应用爆发的背景下，推理业务的增长速度显著快于训练。」李旭慧表示。

大模型训练强调强同步，而推理面对的是大量突发、小包、高频请求，对低时延和稳定性的要求更高，这也意味着对「网力」的要求更高。

而概括一下磐脉 920 在做的事，就是尽量减少整系统里的「堵」和「等」，通过网力的提升来释放 AI 算力。

其背后的实现原理，有三个关键。

首先是支持多路径 RDMA，打破单一路径的局限。

通俗理解，就是原本只能走一条高速，现在变成多条路同时分流。更关键的是，这些数据虽然分开走，但最终还能按顺序准确拼回来。

李旭慧解释，磐脉 920 通过支持逐包喷洒、乱序接收和选择性重传，实现 RDMA 多路径。

从结果来看，这套方案带来的改善比较直接。

按照官方实测，磐脉 920 支持单 QP 打满 400G 带宽，而同类主流产品带宽大约只有其一半。同时，多路径能力可以把交换机端口缓冲区水线降低 90%，减少丢包和重传。

第二个关键设计，是把「绕路」变成「直连」。

磐脉 920 最大的亮点之一，是内置 PCIe Switch。这也是国内首个做到这一点的 400G 智能网卡。

传统服务器架构里，PCIe Switch 通常部署在主板上，数据需要绕多个节点转发。结果就是，有的路径长，有的路径短，时延不一致。

对于需要高度同步的 AI 训练任务来说，这种「不整齐」会直接影响效率。

李旭慧打了个比方：传统架构里，经常会出现「四个下行通道挤一个上行通道」的情况。

这很像四条支路同时汇入一条主干道，堵塞几乎不可避免。

磐脉 920 把 PCIe Switch 直接集成进芯片内部，让网卡与 CPU、GPU 形成更直接的连接关系。

少绕路，意味着更低时延；路径更统一，则意味着更稳定的同步效率。

根据平头哥实测，在相同集群规模和任务条件下，部署磐脉 920 后，大模型训练和推理任务完成时间可缩短 14%。

第三个关键，是让网络具备自己判断的能力。

传统网卡更多像搬运工。收到数据，搬过去，仅此而已。

据了解，磐脉 920 加入了细粒度网络感知和可编程拥塞控制能力。直白讲，就是它能主动避堵。让网络开始从被动传输，变成主动调度。

对于越来越复杂的 AI 集群来说，这种能力的重要性会越来越明显。

从这些设计能看出来，磐脉 920 并不是在追求参数上的简单提升，它做的事情很务实，让已经很贵的算力，少浪费一点，从而激发最大的潜能。

02

为何是阿里在定义 AI 基础设施？

除了性能本身，磐脉 920 背后更值得关注的，是平头哥和阿里的整体布局。

过去几年，很多公司做芯片，往往集中在单一环节，比如 GPU、AI 加速卡或者 CPU。

但平头哥的思路是做全栈。

目前，平头哥已经形成四条产品线：真武系列 AI 芯片、倚天服务器 CPU、镇岳存储主控芯片，以及这次发布的磐脉系列智能网卡。

对应的，正好是数据中心里的几个关键环节：算力、存力和网力。

李旭慧在采访中表示：「单一芯片产品无法解决全链路问题，只有打通算力、存力、网力，才能最大化释放 AI 硬件性能。」

这也是平头哥和很多单点芯片公司的区别。它不是只做一块性能更强的芯片，而是试图从整个系统角度去看问题。

很多芯片公司做产品，先做出来，再去找客户和落地场景。

但平头哥不是。

李旭慧告诉极客公园，磐脉 920 立项之时 AI 智能体尚未成为行业焦点。但他们从阿里云自身业务中判断，未来 AI 一定会推动数据中心网络能力升级。

「一线业务场景的实际需求，是芯片技术迭代与产品优化的核心驱动力。」先有阿里云的大规模业务场景，再从实际场景需求里倒推产品定义。

这就是磐脉 920 的商业路径。据透露，和平头哥倚天、真武、镇岳系列芯片一样，它会先部署在阿里云数据中心。

从这个角度看，磐脉 920 的发布，本身就是阿里「通云哥」协同能力的一次体现。

通义负责模型，阿里云负责场景，平头哥负责底层硬件。模型需求推动云基础设施升级，云场景又反向推动芯片演进。

这种全栈自研的闭环，在国内科技公司里并不多见。「通云哥」的模式虽然前期投入大、周期长，但一旦走通，护城河也极深。

AI 竞争走到今天，比拼的已经不是单点能力，而是这一整套系统能否顺畅运转。

随着 AI 越来越多从训练走向推理，模型、云与芯片之间形成的持续反馈循环，整体优势的显现可能才刚刚开始。

*头图来源：平头哥

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO