“大家都在抢我的芯片!”
昨夜,全球算力总龙头英伟达发布一季度财报。
总营收72亿美元,超过市场预期的65亿。万众瞩目的AI芯片业务,营收创历史新高,同比上涨10%;大家不太看好的游戏业务,收入也高出预期。
盈利方面,同样爆炸,毛利率、EPS都超过了先前的指引和市场预期。
最重要的二季度营收指引,不但没有继续下降,反而大增33%,比原来分析师的预期高出53%。
业绩这么好,股价盘后直接暴涨25个点,比一个AMD(1750亿美元)还多,并有望成为全美第七家市值1万亿美元的公司。
世界奇观啊,前段时间梭哈的,怕是睡着了都要笑醒。
英伟达走势,来源:Choice
但问题也接踵而至。
英伟达的顶峰,到底在哪里?
现在上车,会不会太晚?
01
臭打游戏的,改变世界
《华尔街之狼》里有个很酷的观点:制造需求。
当消费者意识不到自己需要什么的时候,你去提醒他,就能多出一片市场。
形象点的概括,就是“真香”。
最典型的案例,是工业革命早期的棉布热潮。
资本家买纺纱机的目的,原本只是提高生产力,用更少的工人产更多的布。
没想到,机器性能太猛,直接把产能拉爆,消费者都不够用了。
为了把库存卖出去,纺织厂只能去创造新需求,把棉布降价卖给穷人。
当穷人们穿上棉衣:“这丝滑的感觉。以前的麻布衣服,真的是抹布!”
棉布的需求于是爆炸性增长,供给又变得不足。
为了跟上市场需求,农民扩大棉花种植,纺织作坊进化成纺织工厂,技术人员改进技术,最后搞出了蒸汽机。
第二次工业革命时期,也有类似的剧本。
资本家借助国家的武力,建立起世界市场,将产品卖到亚非拉。当这些地方的老百姓用上火车、电灯、火柴,惊呼原来还有这么方便的东西。
巨大的需求缺口立刻滚滚而来。为了扩大产能,又一次技术大改革开始。
不过,世界市场实在太大,为了更高效收割,老牌工业国干脆把产业链转移到后发国家,又把现代金融体系建立起来了。
这种创造需求、满足更多需求的轮回,是近代世界历史的一条暗线。
今时今日,这个剧本仍在不断重演。不论是宏观经济,还是在每一个细分领域。
IBM董事长沃森,曾有一句名言:全世界只需要五台
比如,3D技术的跨越式发展,从根本上改变了电影的生产模式。
从前,特效大片需要先画故事版,然后让演员在绿幕前面,对着空气表演,再把素材交给后期,加各种酷炫特效。
但3D引擎将这一切反过来。把通用素材提前准备好,组合就能获得上乘场景。演员只需在场景中表演,特效与人融为一体,成本降了一大截。
《曼达洛人》有一半的特效镜头,都是用这种手法拍摄的。
而这一切,都源于无聊的游戏玩家们,想要在游戏里数腿毛。
又比如,2020年开始,游戏显卡占英伟达营收比例越来越低,数据中心的订单越来越多。
数据中心买显卡回去,当然不是用来玩游戏,而是用这些显卡过剩的算力搞大数据计算,全世界有相当多的人工智能公司,要依靠显卡芯片提供的算力进行深度学习。
可以说,没有游戏,显卡的发展绝不会如此迅速,AI的大爆发也极可能被延后数十年。
来源:中信证券
正是那群“臭”打游戏的,对光线和细节丧心病狂的追求,催促着算力向更高层次进发,而这些算力又用在了更多地方。
然后世界变了。
02
帝国的裂痕
2018年,《财富》杂志举办活动,有人问黄仁勋:你何时知道英伟达公司将会改变世界的?
答:1993年2月17日,我成立公司的日子。不改变世界,我创个什么业?
这肯定有吹牛的成分。
显卡吧有诗曰:“先有老黄后有天,显卡在手日神仙。”
在游戏世界中,黄仁勋是玩家口中的“两弹元勋”、爆破鬼才;在加密货币世界里,他是显卡疯子;在AI爆发的时代,他同样站在顶端,俯看竞争者为自己的显卡疯狂。
黄仁勋的成功,当然并非偶然。
世纪初,英伟达踩着所有对手的尸体,稳稳坐到显卡领域的王座上。
但这个位子,不是那么好坐的。
在PC时代早期,不论是对玩家还是游戏厂商而言,显卡都是一种极易过时的消费品。
除了游戏不断推陈出新,电脑本身也每隔几年就更新迭代,对显卡的性能要求,越来越高。
一方面,这形成了持续的消费力;但另一方面,如果跟不上新产品的步伐,等待GPU厂商的,只有收入暴跌、淘汰出局的结果。
这就像火烧屁股一样,催促着英伟达不断朝着更强大的技术前进,直到成为今天的模样。
但GPU在AI领域出圈,确实是偶然。
打从一开始,GPU就不是为训练神经网络所生,而是图像。
更具体点说,是为了将CPU从图像显示的苦力活中解放出来而生。
GPU和CPU,虽然结构差异显著,但本质上都遵循冯·诺依曼结构,存储和运算是分离的,存在明显的效率瓶颈。
在分支众多的AI神经网络中,这是很要命的。
神经网络每增加一个分支,GPU就要增加一次内存访问。在AI模型越来越庞大的当下,GPU消耗在内存访问上的能耗,要远比运算高很多倍。
简单说,就是效率不行。
人工智能技术发展得越快,这些问题就暴露得越多。
对此,黄仁勋祭出两套方案,齐头并进:
1.暴力堆算力。AI对算力的需求每100天就翻倍,这是悬在所有人头上的利剑。他们只能一边痛骂老黄心黑,一边像舔狗一样抢光所有芯片。
2.做生态系统,逐步解决GPU与AI场景不匹配的问题,包括功耗、内存、带宽瓶颈等等。
前者保证有肉吃,后者保证永远有肉吃。
这就是为什么,同样做芯片,英伟达的市值是英特尔的五倍,游戏、加密货币、云计算以及AI大模型,都离不开它的产品。
如果只是在硬件上内卷,不可能达到这么高。
除了GPU芯片设计能力,英伟达最宝贵的财富,是基于CUDA模型,孵化了大量的开发者和软件生态。
就像Android和iOS一样,遇到鸿蒙这样的挑战者根本不怕,因为即便后来系统做得再好,但是没有生态也是白搭。
英伟达发布CUDA后,先后推出居里、特斯拉、费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏等一些列架构,用以支撑Graphics和Computing这两大场景。
但是,效果并不好。
正如CPU优秀的调度能力,以牺牲算力为代价一样,魔改后的GPU在算力上的堆叠也越来越克制。
在AI场景下,越来越难以匹敌专用芯片。所幸的是,后者并没有量产。
手握终极“缝合怪”H100,黄仁勋暂时可以松一口气,目前市面上还未出现更能打的量产芯片。
但挑战者,并不是没有,还很强力。
一个典型的深度神经网络架构,来源:towards data science
最有实力的,当然还是谷歌。
4月初,谷歌首次公布了AI超算的细节——TPU v4性能相较v3提升10倍,比A100快1.7倍,同时功耗少1.9倍。
和H100对打的芯片,也已经在研发中,它并非没有胜出的机会。
相反,因为更适用于AI场景,只要能量产,谷歌TPU会更受欢迎。
比如,本轮AI热潮除了OpenAI外,还有两家出圈的公司,一家是AI绘图公司Midjourney;另外一家是Authropic,其对话机器人Claude跟CHATGPT打的有来有回。
而这两家公司,都没有购买英伟达GPU搭建超算,而是使用谷歌的算力服务。
当然,这两者加起来,也比不过微软自研Athena芯片所带来的冲击。
最近市场传出微软与AMD合作开发新款AI芯片,加快推出相关产品,为自身及市场提供英伟达GPU之外的另一种底层硬件选择。
“如果 Athena 具有竞争力,与 Nvidia 的产品相比,它可以将每芯片的成本降低三分之一。”
此外,针对CUDA模型,OpenAI最近还推出了“简化版CUDA”:Triton。
这是种新的语言编译器,性能媲美CUDA,操作难度却低得多:只需25行代码,就能在FP16矩阵乘法上达到与cuBLAS相当的性能。
虽然Triton架构目前只正式支持英伟达GPU,但之后也会支持多家硬件供应商。
因为它是开源的。比起闭源的CUDA,其他硬件加速器能直接集成到Triton中,大大减少了为新硬件建立AI编译器栈的时间。
无论是谷歌还是OpenAI,在AI领域无疑比英伟达更专业,它们欠缺的只是时间。
更何况,前文已经说了,AI所需算力每100天将翻一倍。
也就是说,到2030年,AI所需算力是现在的3000万倍。(2的25次方)
即便是英伟达,也不可能满足如此恐怖的需求增长。
叠加全球供应链安全的考量,AI芯片市场从过去的英伟达一家独大,或慢慢转变为群雄割据。
还有另一种情况。
如今,AI一日千里,技术突破以小时计。如果在未来,AI在社会上的普及能像PC和手机那样大幅提升,算力成本可能大幅下降
那时,GPU更不是唯一的答案。
03
尾声
回顾历史,一战和二战,赢家是谁?从生意的角度看,是美国。
作为军火商,美国通过贩卖武器,实现了财富自由。
而今,多维度的人工智能战争已经打响,英伟达扮演的就是曾经军火商的角色。
目前,在eBay上,一张H100的售价,基本都在4-5万美元。而在一年前,才一万多。
而且有价无市。
据国内渠道商透露,之前拿货周期大约为一个月左右,现在基本都得三个月,甚至更长。
“一台通用计算服务器的成本大约在5万块钱左右,现在符合美国技术出口规范的A800一块价格已经涨到十几万,对于投入算力基础设施的公司来说,整个采购成本都在增加。”
好家伙,二道贩子卖一张卡的利润,顶俺们上一年班。
这有点类似两年前的动力电池,享受量价齐升的逻辑。你总以为到顶了,其实远远没有。(参考阅读《世纪抄底英伟达》)
但这种垄断式中间商,还能爽多久呢?
复盘英伟达过去二十年,通俗点讲,只需做好游戏GPU,就能顺带提高算力,满足训练AI模型需要,一举两得。
所以英伟达发展得快,从一个二线芯片公司变成了行业的NO.1,不可谓不励志。
但当AI大模型进入高速发展阶段,英伟达的侧重点,从游戏转向并非自己专长的人工智能。固然能在前期垄断上游算力,赚得盆满钵满,但早晚会被更专业的玩家追赶上。
你说它是AI时代的卖水人,没问题。说市值万亿美元不是它的终点,也没问题。
但要说它是AI时代唯一的霸主,那就不尽然。
再如日中天的帝国,也要当心那道不起眼的裂缝。