关闭广告

百度智能云公布两款自研AI芯片,昆仑芯比外界想象得更有野心

钛媒体APP318人阅读

李彦宏有些无奈。

“过去,AI产业结构像一个正金字塔,最底层的芯片拿到了绝大部分的价值;芯片之上的模型,赚到的钱可能不到芯片的1/10;模型之上的AI应用,又小了一个数量级。”在百度世界大会上,百度创始人李彦宏说道,“这个产业结构是非常不健康的,是不可持续的,因为芯片并不直接产生价值,应用才能够产生价值。”

但更无奈的是,在当前的宏观和产业环境下,要打破这种倒挂结构,要赚模型层或者应用层十倍以及百倍的价值,最好的办法就是把芯片层重新掌握在自己手里。

百度不得不自研芯片。在英伟达的“芯片铁幕”之下,这不是百度一家公司面临的问题,无论是海外厂商如亚马逊、微软、谷歌以及OpenAI,还是国内企业如阿里、华为、腾讯,都不得不启动自研芯片战略。

百度的昆仑芯团队成立于2011年,很早就参与到了AI计算产业的新周期,在大模型时代有了极大的加速,从早年的AlexNet以及更早的语音识别模型,开始用FPGA做计算加速,再到后来的大型推荐系统流行,昆仑芯开始自己做芯片。

2021年,昆仑芯从百度集团拆分,也赶上了大模型萌芽阶段,着手定义面向大模型的新一代芯片,譬如P800。

本次大会上,百度智能云事业群总裁沈抖公布了两款自研AI芯片,昆仑芯M100和M300,以及天池256和512超节点的相关规划。


大模型之后,芯片更简单还是更难?

以前芯片厂商需要面对不同场景、不同数据、不同算法以及不同应用,很难形成规模和系统的迭代。

Transformer的出现统一了模型架构,把输入输出都统一成Token,统一的框架也带来了计算架构的统一,芯片厂商在做芯片时,可以有非常明确的目标,实现极致的性能,并且可以充分利用整个产业链的供给能力,实现更低让成本做的非常低,更好的计算芯片直接推动应用发展,应用繁荣又能够给计算芯片带来更大的规模,产业由此进入正循环。

新技术带来产业的新变化,从技术可行到产业可行,某种程度而言,做一个为当前大模型定向优化的芯片更容易了。

但是,新的挑战在于技术没有边界,应用也没有边界,所有做算力的团队都无法百分百确定,未来大模型乃至AI产业会朝着什么方向发展,典型如Scaling Law,模型参数从百亿、千亿到万亿级模型,大幅推高算力、能源、基础设施成本,应用的生长也几乎不可预测,

这也意味着,面向未来而做的芯片变得更难了。虽然无法精准预测未来,至少可以确定大方向,算力最终绕不开两个根本问题:效率问题与规模问题。

随着大模型应用全面渗透,人均每天的 Token 消耗动辄数万甚至百万级,几年前一张 GPU 每秒只能处理十几个 Token,现在行业都在追求从算力卡中榨出更多的tokens,直接关乎最企业终的竞争力。

例如降低计算精度:从 BF16 到 FP8、FP4,通过牺牲冗余精度换取数倍算力提升,每一次精度下降,对应算力倍数提升;再如,模型训练方式在变,芯片架构也必须跟着变,不断针对模型架构上优化整个芯片的PPA。

如今做芯片,已经不能只做芯片,系统才是把算力真正释放出来的关键环节,超节点就是一个实证。超节点不是新概念,但在大模型时代终于找到了“刚需场景”。服务器内联数十甚至上百张卡,再到未来的千节点互联,相比单机单卡,这类系统能带来量级上的成本下降。

效率问题人人都能理解,而规模问题只有足够大的规模才能真正感受到。从千卡到几万卡,再到未来可能出现的百万卡集群,系统会在某些阈值上发生“质变”,成百上千的隐性问题会同时涌现。

例如稳定性急剧下降,在千卡规模下,98%的稳定性还能接受;但到了万卡,这个数字会指数式下跌,任何节点的波动都会被放大成系统级故障。训练的精度也难以保障,大量微小差异会在长时间训练后,可能累积成最终精度的大幅偏差,而这样的验证往往需要 2~3 个月,是极其昂贵的学习成本。

当 AI 应用以指数方式增长,算力不再是简单的“堆卡”,而是站上了一条新的工程学和科学探索路线。

昆仑芯的路线

过去几年,昆仑芯已经量产了三代,第一代更多部署在百度内部的数据中心,第二代开始面向市场全面开放,如今已有大量企业用户在大规模使用,第三代则赶上了大模型时代的浪潮,无论推理还是训练,都在互联网、运营商、金融、能源等行业得到了广泛落地。

据悉,目前百度内部绝大多数的大模型推理任务,都由昆仑芯P800支持,百度还基于P800的5000卡单一集群,高性价比地训练出了领先的多模态模型,目前该训练集群已经扩展到万卡以上,可用于训练更大规模的模型。

在本次大会上,M100 与 M300 系列正式亮相。M100针对大规模推理场景做了优化,同时也是一颗全能型芯片,MoE模型的推理性能大幅提升,将在2026年初正式上市。

M300 定位高端,兼具强推理与强训练能力,针对超大规模的多模态模型的训练和推理任务做了深入优化,将于2027年初正式上市。

昆仑芯的软件栈高度兼容主流 CUDA 生态,从编程语法到深度学习框架,都能无缝适配。据透露,昆仑芯的客户不局限于互联网产业,从电信运营商的核心系统,再到能源、电力、金融等行业,都已经有落地项目。

不止是在百度内部广泛使用,昆仑芯也在互联网、金融、能源、制造、交通和教育等多个行业落地,包括招商银行、南方电网、中国钢研、国家管网、吉利汽车以及国内头部互联网大厂和运营商等上百家客户,交付规模从几十卡到数万卡。

沈抖现场也表示, 单芯片的强大是基础条件,现在的大模型训练和推理都不是一颗芯片能完成的,而是多颗芯片协同工作,尤其在MoE模型上,卡与卡之间的通信量急剧增加,需要把几十张、上百张卡组成一个超节点,让它们像“一颗超级芯片”一样紧密连接,大幅提升卡间通信效率。

“超节点”方案非常考验AI infra厂商在芯片、内存、通信、供电、冷却上的全栈协同能力。

2025年4月,百度基于昆仑芯P800上市了32卡和64卡的超节点,在现有超节点的基础上,天池256将256张P800放到同一个节点内,相比4月发布的超节点,单实例的卡间互联总带宽提升4倍,性能提升50%以上。

对比同等卡数的P800集群,天池256超节点在主流大模型的推理任务上,单卡吞吐提升超过3.5倍。

天池512同样基于P800,它在天池256基础上,卡数翻倍,卡间互联总带宽也再翻一倍,单个天池512超节点,就能完成万亿参数模型的训练,这两款超节点产品,将分别在明年上半年和下半年正式上市。

另外,百度也在基于新发布的昆仑芯M系列研发千卡级别的超节点,从27年下半年开始,将陆续推出相应的千卡、四千卡超节点。“未来5年,昆仑芯每年都会推出新产品”,沈抖表示。 (本文作者 | 张帅,编辑 | 盖虹达)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's巴伦中文网官方网站

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大幅上调英伟达目标价,这家大行的理由:台积电产能分配远超预期,OpenAI“闭环交易”

华尔街见闻官方 浏览 787

理想汽车联合创始人沈亚楠退出公司股东行列,李想持股比例达95%

界面新闻 浏览 13857

特朗普邀请俄罗斯重回西方怀抱 普京用一句话表明决心

空天力量 浏览 598

九分裤的4个搭配公式,美爆了!

小西的穿搭日记 浏览 17124

台积电批准在德国投建半导体工厂,博世、英飞凌和恩智浦各持股10%

界面新闻 浏览 13800

罗体:萨里向洛蒂托要求在一月引进一名高水平中场球员

懂球帝 浏览 241

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

财联社 浏览 466

纯纯诈骗剧,浪费了一票女神

独立鱼 浏览 827

一天没了2000亿,都怪“医药最强反腐”吗?

虎嗅APP 浏览 12156

京东首款汽车定了!埃安UT迎泼天流量,能否逆天改命?

雷科技 浏览 661

梅克斯:多梅内克执教法国队时,根据球员的星座来排首发

懂球帝 浏览 666

女人过了40岁别总穿T恤 不妨试试这3件

巧百搭 浏览 14908

中超第14轮跑动榜:周定洋高居榜首,两名外援进前五

直播吧 浏览 14873

低成本、高锐度布局风口上的创新药

一地基毛 浏览 412

字母哥首秀但他还走吗? 胜公牛并未让雄鹿宽心

仰卧撑FTUer 浏览 754

王力宏在美国开演唱会感慨深 面容憔悴还哽咽流泪

不八卦会死星人 浏览 13770

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

静儿时尚达人 浏览 370

今年一定要拥有这件大衣,复古又时髦!

LinkFashion 浏览 466

恰逢成都保卫战30周年,2025老甲A12月8日在成都双流开赛

懂球帝 浏览 407

今年冬天一定要有“格纹单品”,复古又时髦

LinkFashion 浏览 24

曼联新赛季进前五就有望踢欧冠!新规将生效,英超最多可七队参赛

罗米的曼联博客 浏览 12197
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1