趣看热点

新智元报道

编辑：桃子

【新智元导读】为了争夺有限的GPU，OpenAI内部一度打得不可开交。2024年总算力投入70亿美元，但算力需求依旧是无底洞。恰恰，微软发布了全球首台GB300超算，专供OpenAI让万亿LLM数天训完。

过去一年，OpenAI在算力上斥资70亿美元。

其中，大模型研发占了最大头——50亿美元，而推理计算仅用了20亿美元。

可见，LLM训练正吞噬无尽的算力，这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

采访中，OpenAI总裁Greg Brockman坦言，「内部如何分配GPU，简直就是一场痛苦与煎熬」。

OpenAI各个团队争抢GPU，那叫一个激烈。最头疼的是，如何去合理分配。

如今，甲骨文、英伟达、AMD等芯片巨头/云服务巨头，纷纷与OpenAI联结，能够解其燃眉之急。

这不，就连曾经最大的「金主爸爸」微软也上阵了。

纳德拉官宣，全球首个配备4600+ GB300的超算率先上线，专攻OpenAI。预计，未来将扩展到十万块GPU。

英伟达称，这一算力巨兽，可以让OpenAI不用数周，仅在数天内训练万亿参数模型。

全球首台GB300超算

数天训出万亿LLM

就在昨天，微软Azure宣布成功交付了，全球首个生产级超大规模AI集群。

它搭载了超4600个GB300 NVL72，配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

今年早些时候，微软曾推出GB200 v6虚拟机（VM），通过大规模GB200 NVL2集群，已在OpenAI内部训练部署得到应用。

这一次，GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计，每个机架包含18个虚拟机，共计72个GPU：

72个Blackwell Ultra GPU，搭配36个Grace CPU
通过下一代Quantum-X800 InfiniBand，实现每GPU 800 Gb/s的跨机架横向扩展带宽（2x GB200 NVL72）
机架内130 TB/s的NVLink带宽
37TB高速内存
高达1,440 PFLOPS的FP4 Tensor Core性能

全新设计，为大规模AI超算而生

为打造出最强超算，微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层，都进行了重新设计。

机架层：低延迟高吞吐

通过NVLink和NVSwitch，GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率，连接了总计37TB的高速内存，由此消除了内存和带宽瓶颈。

在大模型和长上下文场景下，推理吞吐量大幅提升，为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

同时，Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树（fat-tree）无阻塞架构，能够跨机架扩展数万个GPU。

此外，Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时，最大限度地减少了水资源消耗。

软件层：全面优化

不仅如此，微软为存储、编排和调度重构的软件栈也经过全面优化，能够在超算规模上充分利用计算、网络、存储和数据中心基础设施，提供前所未有的高性能和高效率。

OpenAI GPU争夺战

一场「痛苦与煎熬」

在OpenAI内部，正上演一场GPU激烈争夺战。

上周四，Greg在一期「Matthew Berman」播客节目中，自曝管理算力资源分配的过程，令人揪心且筋疲力尽。

这太难了，你总能看到各种绝妙的点子，然后又有人带着另一个绝妙的点子来找你，你心想，这个也太棒了。

在OpenAI内部，将算力资源主要分配给「研究」和「应用产品」两个方向。

为了应对算力分配的挑战，OpenAI建立了一套相对清晰的资源分配机制：

高层决策：由奥特曼和Fidji Simo组成的领导团队，决定研究团队与应用团队之间的总体算力划分；

研究团队内部协调：首席科学家和研究负责人，决定研究团队资源分配；

运营层：由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

OpenAI复杂算力关系网络图

Greg提到，当一个项目接近尾声时，Kevin会重新分配硬件资源，以支持新启动的项目。

算力驱动着整个团队的生产力，此事干系重大。

大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。

一直以来，OpenAI多次公开表达其对算力永不满足的需求。

OpenAI首席产品官Kevin Weil曾表示，「我们每次拿到新的 GPU，它们都会被立刻投入使用」。

OpenAI对算力的需求逻辑很简单——

GPU的数量直接决定了AI应用的能力上限。获得的GPU越多，所有人就能使用越多的AI。

不仅OpenAI，整个行业科技巨头也在加码算力投入。小扎透露，Meta正将「人均算力」打造为核心竞争优势。

上个月，奥特曼称，OpenAI正在推出「算力密集型服务」。

当我们以当前模型的成本，将海量算力投入到有趣的新想法上时，能创造出怎样的可能性？

这场算力争夺战中，谁手握最多的算力，将决定谁在AI竞赛中脱颖而出。

参考资料：

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

刚刚，全球首个GB300巨兽救场！一年烧光70亿，OpenAI内斗GPU惨烈

乌迪内斯3-...

“有病去医院...

央视主持人海...

皇马巴萨决裂...

《向往8》暴...

戳破马拉松泡...

深圳街头偶遇理想MEGA，车友：实车看着不错，车身姿态是真稳！

上半年超七成二手车经销商亏损，二手车的未来在哪里？

【西甲】皇萨对决：姆总+贝林PK亚马尔+拉师傅

智元精灵G2新一代工业级交互式具身作业机器人发布

巩俐越老越有韵味，穿黑色连衣裙秀出魔鬼曲线

瑞典官宣解雇49岁主帅 4轮仅1分+无缘直通世界杯用废英超2亿双星

刘维伟：队员让大家看到我们的拼搏精神和斗志主场的气氛真好

女主播被伪装的炸弹包裹炸伤：拿起看了一眼就爆炸了

710km续航的中大型纯电轿车，只要15.99万元，真香！

虐囚事件发酵高官引咎辞职以总理称遭＂严重公关危机＂

将主持《浪姐4》？李湘回应：不去感谢湖南卫视

Stability AI CEO放出豪言：5年内，人类程序员将不复存在

大运女篮开门红！韩旭带伤狂轰24分打卡下班，小组赛无压力！

陈赫为邓超庆生豪气抽送《中国乒乓》电影票

扎哈罗娃：俄罗斯保留对日本采取强硬回应的权利

iQOO Z7搭载120W 超快闪充售价1599元起

2026款奔驰GLC AMG 43 4MATIC上市售58.9万

肖战主演电影《得闲谨制》，有点东西！

北约峰会将举行立陶宛设防空导弹指向俄和白俄

女人年纪大了怎么穿？试试：衣选长、鞋带跟，会叠穿，才优雅

百度再战高德，还拉来了两大“帮手”

蚂蚁集团突破性研究：一个视觉＂万能钥匙＂让AI同时理解和创造图像

第二次学贾玲也没用，亏损超1亿？

比亚迪连续4个季度超越特斯拉