“英伟达是我们遇到过最糟糕的公司。So F**k you,Nvidia。”
因为英伟达多年来拒绝对GPU内核驱动开源,“Linux”之父Linus Torvalds终于忍不住在2012年公开对英伟达和黄仁勋竖起中指。
不仅仅是Linux,还有微软,英特尔,AMD,三星,高通等等科技巨头都曾和英伟达对峙公堂。这就是黄仁勋:不怕得罪客户,不怕战斗,不和解。
英伟达顶着“史上最任性乙方”的骂名,一路推动GPU走向主流市场,顺市而动;多年坚持搭建生态,形成了如今高耸的护城河和垄断式的市场占有率。2023年8月中旬,有咨询公司测算,英伟达最新GPU H100利润率高达1000%,且在市面上供不应求。
这期视频,我们构建了英伟达GPU崛起的整个历史,来深度聊聊,关于英伟达GPU最重要的战斗,以及这些战斗如何在AI浪潮来袭之际将英伟达推到了万亿市值的宝座。
01 英伟达GPU的诞生
在我们详细深扒英伟达GPU的第一场战役之前,我们稍微来讲讲当时的市场格局。
将时间拉回到90年代末期,英伟达因为第一款芯片产品(RIVA128)成功推出,加上1997年和1998年全球游戏发展的浪潮,使得英伟达在1999年1月22日正式在纳斯达克交易所挂牌上市。在同一年,英伟达趁热推出了Geforce 256,这款被称为“全球首款GPU”的图形处理器。
其实,GPU这个技术并不是英伟达发明的,在英伟达发布Geforce 256之前,这项技术已经存在在其他大公司中了,包括索尼早在1994年版的PlayStation里面已经使用了,但没有人在市场上大肆推销这个技术。所以,把自己和“GPU发明者”这个称号绑定起来,其实英伟达的市场营销的意味很浓。现在看来,这是老黄刻意为之。
这是因为,当时的世界是英特尔的CPU所称霸的世界。而英伟达要想跟英特尔对打、唯一能杀出一条血路的策略,就是营销GPU。
图形处理器GPU和中央处理器CPU具体的区别在:CPU就像一个学识渊博的教授,什么都精通都能做,但任务得一项一项做、比较慢。而GPU就像一堆小学生,对于特定的简单运算任务,人多力量大,所以在大量并行计算上,GPU完胜。
(英伟达比喻CPU的工作过程)
(英伟达比喻GPU的工作过程)
这并不是说GPU就比CPU好,或者GPU能彻底取代CPU,只是大家的专长不一样。但在产品形态上,英伟达拿着GPU这样的产品差异点去打英特尔,是非常聪明的。
我们现在有了“上帝视角”,知道GPU有多厉害,但在21世纪初期微软Windows生态和英特尔CPU称霸的年代,而且GPU在产业上的优势和需求还没体现出来,英伟达是非常弱势的。
而就这样,弱势的英伟达把自己卷入了一场大战,这不仅仅是一场大战,还是一场非常复杂和惊险的五方混战。
02 英伟达与微软、英特尔、AMD及ATI的五方混战
2000年初,几个芯片玩家的格局是这样的:
英伟达主要开始大力售卖GPU。
ATI是一家加拿大公司,比英伟达早成立8年,在90年末也开始进军图像芯片GPU,成为英伟达的主要竞争对手。
英特尔其实也看到了GPU崛起的趋势,1998年尝试研发过一次单独的图像独立显卡,也被有些人称为最早的GPU之一,叫i740,但市场反应非常不好,没成功;之后一年在推出升级版i752的时候,直接被叫停,之后英特尔放弃了独立显卡。
当时因为英特尔CPU的市场太大了,处于非常舒服的位置,基本上的态度就是:市场上有啥新东西,你们先搞着,到时候组装到我的主板里面就行了。后来英特尔采用了CPU+GPU的集成显卡策略,让ATI和英伟达去竞争,英特尔坐收渔翁之利。
再来看如今英伟达的最大对手之一,AMD。当时AMD还不是英伟达的竞争对手,最开始AMD是英特尔的竞争对手,主打CPU市场。
两个CPU巨头盯着两个GPU新星,明着暗着拉帮结派,再加上一个超级大甲方客户,微软,就开始搞事情了,五方混战正式拉开序幕。
2.1 八面玲珑
在这场混战中的第一阶段,英伟达可以说是八面玲珑。
2000年,在商业合作方面,微软为了进军游戏主机行业、与任天堂和索尼展开直接竞争,就找到了英伟达,让他们成为当时还是秘密项目的Xbox的GPU提供商。拿下微软这个重要的订单,英伟达可以说是干劲十足。
另外一边,英伟达和AMD现在成了死对头,但在2000年初期,英伟达和AMD可是结盟关系去共同打击英特尔。而且黄仁勋在1984年到1985年在AMD工作过,更有着“老东家”的渊源,所以在早期,英伟达在2001年6月进军主板芯片组(chipsets)、发布nForce一代的时候,首选就在AMD的平台上发力。
这时的英伟达非常意气风发。大金主微软为了让英伟达全力开发Xbox GPU,给出了总计5亿美元的合同,定金就直接给了2亿美元。要知道,当时英伟达一整年的销售额也就才5亿美元,相当于是买了“全年套餐”,一下给包养了。
随后股价也是蹭蹭往上涨。但很快,英伟达就发现,大金主的钱,其实并不好拿。
2.2 十面埋伏
为了在2001年和索尼还有任天堂正面竞争,微软给英伟达的时间只有一年。正当英伟达加班加点的给初代Xbox供应GPU时,微软遭遇到一系列生产和供应问题,被迫推迟发布,错过了先机,败给了索尼的Play Station2。
于是微软所有的压力堆积到了第二年的二代产品上。
为了快速占领市场,微软开始使用低价策略,将Xbox的北美售价定在299美元。这个概念是英伟达在2001年卖的GPU叫GeForce 3,市场售价329美元,英伟达给微软特定的X-Chip是基于GeForce 3的产品。
这相当于,装载英伟达GPU的Xbox比单纯英伟达芯片还要便宜,这就好比你去买汽车的发现这个汽车大减价,比里面装载的发动机还要便宜。
当时,微软在Xbox初期,每卖一台Xbox,就要亏126美元,那如果微软想降低亏损的话怎么办呢?微软打开Xbox,看看自己的供货商说:诶英伟达,你是不是得便宜点儿?
然而,就算面临微软这么大的一个客户,2002年二季度微软的订单占英伟达总收入近30%,黄仁勋不愧是“史上最任性乙方”,一口回绝了微软的砍价提议。双方还走上了法律程序。当年的美国证监会SEC文件,微软和英伟达直接走的是“binding arbitration”具有约束力仲裁,就是说,判决之后,双方都没有上诉的机会,要的就是快狠准。
跟强势甲方闹掰的结果就是,微软直接转向英伟达的对手ATI,作为下一代Xbox 360的GPU供应商。而英伟达和微软闹掰的消息直接让英伟达股价雪崩式下挫。而更雪上加霜的是,因为之前英伟达站队AMD,使得英特尔也开始扶持ATI。
这时,英伟达面对的是两个行业巨头同时开始扶持自己的最大竞争对手:微软,英特尔和ATI,展开了对英伟达的围剿。
英伟达的股价就一年,市值蒸发90%。
黄仁勋前一年刚入选美国《财富》杂志的《40岁以下的40位富豪》,以5.07 亿美元的身家排在第12位,后一年他的个人财富缩水10倍,直接从“亿万”回到了“千万”富翁。
差一个零还是差得挺多的哈。
所以,和微软的这次合作可以说让英伟达付出了惨痛代价。微软当年可以说是行业标准的制定者,英伟达在刚创业的时候就因为不符合微软的行业标准就吃过一次大亏。现在和微软闹掰之后,英伟达又直接错过微软新规格确立的重要消息,
直接导致新推出的GeForce FX因为和微软的标准不兼容,而被对手ATI推出的Radeon 9700打得一败涂地。而更糟糕的是,GeForce FX还出现了运行温度过高的问题,引发多次自燃事故,这也使得黄仁勋一度被游戏玩家调侃为“两弹元勋”。
说到这里,大家是不是觉得,老黄你怎么就这么倔呢?当个乙方,委屈一下怎么了。但事实黄仁勋也意识到了错误,接下来就是忍辱负重的几年。
2.3 忍辱负重
首先,黄仁勋意识到,在如此十面埋伏的境地,最大的甲方是得罪不起的。
所以,英伟达服了软,在2003年2月6日与微软共同宣布结束法律仲裁程序,“同意与微软合作降低Xbox的未来成本”。这为英伟达在2003财年带来了4040 万美元的额外收入。
另外一边,在2002年底,英伟达终于争取到了索尼的订单,为下一代游戏主机PlayStation3提供显示芯片,这个时候游戏主机中的另外两个大玩家微软和任天堂都被竞争对手ATI抢走了,所以英伟达拿下索尼,是非常关键的一步。
与此同时,英伟达开始对英特尔表达诚意。我们之前说过,英伟达的主板芯片组产品nForce一代发布的时候,是和AMD深度绑定的,只兼容AMD的平台。2004年1月的CES国际消费电子展上,英伟达首次展示了支持英特尔标准的芯片组产品。而在2004年稍后,英伟达和英特尔达成相互授权的专利交叉许可协议。大家注意,这个协议之后又引发了两家公司的一场硬仗,我们这个待会儿讲。
至此,英伟达与行业中两大巨头关系缓解,订单慢慢稳定,也不断推出新产品受到市场好评,总算是化解了危机。
与此同时,英伟达与ATI的竞争也日益激烈。就在这个时候,一个改变市场格局的事件发生了:黄仁勋的“老东家”、之前与英伟达同一战线的AMD,收购了英伟达最大的竞争对手,ATI。
2.4 重新洗牌
2004年第三季度,在独立显卡市场中,ATI的市场占有率在59%,而英伟达只有37%。
英特尔对战AMD,英伟达对战ATI,CPU和GPU两个战场上的战火,都越烧越猛烈。
2005年,英特尔宣布和ATI达成协议,为英特尔新系列主板提供解决方案,同时,我们刚才提到,英特尔也跟英伟达签订了专利许可。所以对于英特尔来说,CPU+GPU集成主板策略还是凑效的。虽然这样的集成主板在最高端设备上的某些任务跑不过独立显卡GPU,比如说大型单机游戏,绘图或视频编辑需求,但是对于中低端设备完全够用,所以也获活得挺舒服。而AMD就很焦虑了:眼看CPU争不过英特尔、在GPU这块也没办法狙击英特尔,并且AMD当时也认同GPU的发展会是未来重要的策略,于是一狠心一跺脚,做出了一个决定:买下市面上最好的GPU供应商。
也就是从英伟达和ATI中间选。最开始,AMD想买的是英伟达。
《福布斯》杂志的文章爆料,AMD前员工透露,当时AMD的首席执行官叫Hector Ruiz,他在2006年首先接触的是英伟达,但黄仁勋坚持要担任合并之后公司的首席执行官,所以老黄和Hector Ruiz没谈拢,AMD转而去找了英伟达的对家ATI。
2006年7月,AMD宣布,以54亿美元收购ATI,这也让AMD成为全球唯一一家有能力研发且生产CPU和GPU的厂商。市场认为,一个强大巨头即将诞生。
当所有人都为英伟达的处境捏把冷汗的时候,黄仁勋却看到了机会。他笃定,AMD吞下ATI之际必然有一段时间的消化和整合期,而英伟达需要抓住这个时期,重新找到市场优势。
黄仁勋在接受Business Week采访时说:“这简直是天上掉馅饼一样的礼物。ATI 基本上已经认输了,我们成为了世界上唯一一家独立的图形芯片公司。”
而黄仁勋知道,接下来的几年,将是最重要的时刻。
2.5 “天上掉馅饼的礼物”
对于AMD来说,整合ATI并没有想象中那么容易,不仅不容易,还让AMD伤筋动骨。
首先在财务上,收购ATI让AMD背上了沉重的负债。
54亿美元的收购金额中,42亿美元是现金,12亿美元是股票。 这个交易方案让AMD贷款25亿美元,几乎用光了公司的账面现金。
自从收购ATI之后,AMD的债务开始大规模增长,2006年AMD长期债务上升至37亿美元,2007年更是上涨到50亿美元。
AMD的负债表到2010年才降下来,一度让AMD濒临破产。
以现在的上帝视角来看,当时的收购其实是有着大量的溢价。
在AMD收购ATI之前,ATI花了相当的时间在当时的显卡领域中“买买买”,把一众老牌的显卡芯片商还有一些核心技术都给买了个遍。这些专利和技术在ATI收购的过程中就产生了大量的溢价,也就是说,ATI花大价钱把自己吃成了个大胖子,然后这个大胖子又被AMD花更大的价钱吃掉。
并且,虽然看上去ATI拥有的各种技术专利很关键,但跟英伟达最先进的技术相比已经落后,所以在整合的时候又拖慢了节奏。总而言之,AMD吃进ATI才发现,这项收购对于AMD自身的资金结构和市场竞争力来说,简直是毁灭性的打击,这直接导致AMD在之后长达数年的时间中,对GPU的研发一直处于比较弱势地位。
而且,AMD还被迫做出一个壁虎断尾的动作:拆分自家的晶圆厂。
在2008年的时候,AMD的CEO Hector Ruiz,没错,就是当年主张要买ATI的那位,不得不将AMD的晶圆厂卖给了阿布扎比的ATIC公司,也就成为了之后的Global Foundries晶圆厂。就这样,AMD也和英伟达一样成为了一家无厂半导体公司。时隔多年,业内还有人叹息说,当时AMD的CEO Hector Ruiz卖掉晶圆厂是错误的选择,让AMD丧失了自主的晶圆制造能力,让生产完全陷入被动。而Hector Ruiz也在将晶圆厂卖掉之后离开了AMD。
Hector Ruiz之后还出了一本书名为《Slingshot: AMD's Fight to Free an Industry from the Ruthless Grip of Intel》(弹弓:AMD反抗英特尔的残暴统治来解救整个产业)来为自己正名,说如果不卖晶圆厂,AMD必破产无疑。
但是,为什么当年又要买ATI呢?
因此,AMD和ATI的合并暂时没有产生1+1大于2的效果,反而在之后很长的一段时间内,都让AMD在与英伟达和英特尔双线作战的时候力不从心。资金链紧张拖累了研发进度,市场占有率节节溃败,AMD好几年都挣扎在生死线上。
所以,AMD在CPU端输给了英特尔,在GPU端也输给了英伟达。公司股价也从2006年的40美元每股直线下挫到2008年的2美元,而这样的颓势一直持续到2016年。而就在AMD把自己折腾得够呛的时候,它的对手,英特尔和英伟达,已经在布局新的战线。
而在AMD暂时不构成威胁的时期,市场上仅剩的两个玩家,英特尔和英伟达,终于开打。
2.6 英伟达:“绝不和解”
也许从一开始,英特尔和英伟达这场战斗就必不可免。
AMD买下ATI,英伟达日渐羽翼丰满,而英特尔也越来越意识到GPU未来发展的重要性。最重要的是,英伟达已经开始蚕食英特尔的地盘了。
2007年,英伟达推出Tesla系列,用于大规模的并联电脑运算。这个Tesla和马斯克的特斯拉电车没关系,是老黄致敬发明家尼古拉·特斯拉给取的名字。Tesla系列的推出意味着,英伟达的GPU计算解决方案已经可以涵盖到个人电脑以及大规模的服务器集群。
也就是说,英伟达已经不满足只做英特尔的芯片组集成显卡的提供商了。它开始进攻英特尔的蛋糕。而且,这个香饽饽客户还是苹果。
2007年,苹果MacBook如果和英特尔合作的话,需要英特尔的Core 2 Duo CPU,再加英特尔的芯片组集成显卡,包括“内存控制集线器”,俗称“北桥”;以及“I/O控制集线器”,俗称“南桥”。一年之后,2008年的苹果MacBook除了CPU还用英特尔的Core 2 Duo之外,剩下的直接替换成英伟达Tesla架构支持的集成控制器GeForce 9400MG。
于是,英特尔正式开打。
首先,英特尔牟足了劲想自研芯片。当时英特尔是芯片市场的绝对霸主:在个人电脑和服务器CPU市场中,英特尔的市场占有率是80%。在图形处理器市场中,英特尔凭着“芯片组”,也就是之前与英伟达等GPU公司合作的集成显卡,也能占据市场的一半以上份额。
英特尔这么大的公司,这么多人才,给了这么多年的机会,你自研一个独立GPU芯片应该不是什么难事吧。
结果,英特尔还真就研发不出来。
英特尔自研的GPU芯片平台叫做Larrabee。2009年12月9日,英特尔公司正式取消Larrabee GPU产品的推出计划,主要原因就是产品的性能以及驱动的开发,远远落后于原先计划。这让市场大吃了一惊,当天英伟达股票就涨了超过12%。
那英特尔还有一招,就是跟英伟达决裂,提前脱钩。
我们之前说到,2004年英伟达和英特尔达成相互授权的专利交叉许可协议。在2009年初,英特尔正式向美国特拉华州法院递交诉状,要求之前跟英伟达签的授权协议不适用于英特尔下一代的集成内存控制器(integrated memory controller),也就是刚才这幅图里面北桥的这个部分。
也就是说:你,英伟达,之后不能再给英特尔提供GPU了。拜拜。
但是,老黄也是不是吃素的,一个月之后,2009年3月,反手就把英特尔给反诉了。英伟达指出英特尔违反合同,真正的目的是阻碍GPU技术。而当时老黄在接受采访时,信誓旦旦地说:“绝不和解。”
这个官司一打就是2年。直到2011年,英特尔终于打累了,去找英伟达达成和解协议。
老黄提出的和解条件是:英特尔要在五年内向英伟达支付15亿美元的专利使用费。英特尔这才发现,自己玩脱了。
而当时英特尔想不到的是,之后它和英伟达的差距会越拉越大。
而现在我们知道,2000年,英特尔的市值是2770亿美元,世界排名第六,是英伟达的60倍,如今,英特尔市值是英伟达的七分之一。
回顾2000年到2011年,这11年,5家巨头,6场战役:微软,ATI,AMD,英伟达与英特尔的混战,真的可以说是高手过招,惊心动魄。
而英伟达暂时成为了最后的赢家,顺应着这十年快速成长,成为GPU市场中的佼佼者。英伟达因为专注研发最领先的GPU技术,将巨头们都甩在身后。
但也是这十年,黄仁勋深刻意识到,产品过于单一、过于依赖性金主甲方的商业模式终究是不安全的。大客户永远想砍价、永远想将技术变为自有、永远不会安分。于是老黄开始下注GPU产品的多样性以及软件生态的搭建。
而这,是英伟达真正能够成为万亿美元帝国的关键。
但是,这条路并不好走。
03 被华尔街估值为“零”的CUDA
我们把时间线拉回2006年。
刚才我们说到,AMD买下ATI,英特尔准备研发自研芯片,整个GPU市场格局大洗牌之际,英伟达在思考,如何将自己身的技术更前沿化,修建更高的护城河,将产品更多元化,更少依赖单一大客户。如果英伟达可以做到这一点,这将是未来GPU竞争格局中的立足之本。
英伟达的首席科学家David Kirk提出了“将GPU技术通用化”的思路。
意思是:GPU在此之前主要是为了图形图像处理而生,主要做3D渲染,游戏方向是长期以来的核心业务。David Kirk认为,英伟达应该探索“运行图形渲染”之外的“通用计算”任务,这包括了超级计算机。再细一点说,将会是科学研究和计算、模拟、药物发现、更专业的好莱坞制作等其他更高端的专业图形领域。
因为GPU编写程序的复杂度非常高,如果要为更通用的人群做GPU产品,那就要开始做软硬件的生态,来满足不同领域的开发者用他们已经熟悉的编程语言在软件生态上编写程序和应用,来驱动GPU处理不同的计算任务。
黄仁勋支持了David Kirk的想法,英伟达在2006年开始投入大量人员和资源研发这样的并行计算程序开发环境,名为CUDA。
这个想法在当年是非常有前瞻性的。但是,问题在于,可能太前瞻了,以至于外界质疑一片,完全无法理解老黄的决定。
非但不理解,华尔街众人纷纷看跌英伟达。
英伟达开始全员投入研发CUDA平台。但这个决策意味着巨大的投资,导致公司成本疯狂上涨。建立生态从来都不是一件容易的事情。
在产品上,英伟达要在硬件产品中增加CUDA逻辑电路,这使得芯片面积变大、散热增加、成本上升、故障率增高。
在2008年就发生了英伟达“显卡门”事件,包括苹果、戴尔、苹果等多家笔记本电脑出现高温下屏幕扭曲、画面杂乱,或者干脆开机了也没屏幕的现象,引发全球不少用户的不满、发起了集体诉讼。
然后大家发现,原因是:他们都装载的英伟达G84和G86显卡系列,出现了问题。
很多人质疑,这是因为CUDA对散热的更高需求导致了芯片瑕疵。无论如何, “显卡门”危机对英伟达的打击非常大,不仅让苹果这些大客户对英伟达产生了不满、对之后的手机芯片合作带来负面阴影,还让华尔街对英伟达的不满上升到了极致。
同时,英伟达投入了大量的人力和资金在CUDA上。反映在财报上,2008年之后英伟达的利润大幅度走低,经营利润甚至在2009和2010年出现大幅度亏损。同时又遇到金融危机的双重打击,英伟达股价重挫。
华尔街上所有人都在问黄仁勋,为什么要做CUDA,甚至华尔街将CUDA的市场价值定义为“零”。
但从2008年金融危机之后英伟达股东的角度来看,这些质疑都是可以理解的。如果做CUDA的原因仅仅是基于“科学计算”的需求,你将所有市场加起来,也不过是个几十亿美元的小市场。你花这么多人力,这么多时间成本做这个东西,合理吗?
当然,老黄在之后的几年,特别是现在AI浪潮起来之后,终于向世界证明了合理性:正是因为CUDA生态,英伟达才可以在AI时代占据GPU市场超过90%的绝对垄断份额。但在当时,说实话,老黄在当年也无法准确预知,这个市场会有多大,是不是正确的选择,更别提给华尔街证明了。
黄仁勋后来在接受采访的时候说,他只知道他押注的是“加速计算”并相信这是未来。如果这份坚持对的,那么更大更宽的市场会向他打开大门。
终于,2012年的一个事件,让黄仁勋更坚信了自己的选择。
2012年是本轮AI浪潮的奠基之年。后来被称为“深度学习之父”的Jeffery Hinton教授带着他的两位学生Alex Krizhevsky和Ilya Sutskeverz,参加了全球最为权威的计算机视觉大赛ImageNet大赛,设计的深度卷积神经网络AlexNet一举夺冠,开启了之后十多年神经网络AI的迅速发展,也奠定了如今生成式AI。
而Ilya Sutskeverz这个名字是不是熟悉?他就是如今OpenAI的首席科学家。
在AlexNet赢得ImageNet大赛的短短几年后,他将从谷歌出走、带领OpenAI迭代出GPT大模型,才有了如今的ChatGPT。
而这一年的比赛中,还有个大赢家,就是英伟达。
在Hinton团队参赛的时候,他们发现,如果用CPU来训练AlexNet,需要几个月的时间,于是他们尝试了一下英伟达的GPU,没想到,他们惊喜的发现,两张GTX580显卡只花了一周时间,就训练完成了1400万张图片。
这标志着整个人工智能历史上算力的重大突破。而英伟达装载了CUDA的GPU GTX 580,从因为功耗和发热问题而臭名远扬的“核弹显卡”,一夜之间,变成了通往未来最重要的必要装备。很快,谷歌,IBM等各大厂商,还有各个高校实验室,纷纷开始向英伟达订购GPU。
而黄仁勋敏锐的意识到AI发展的重要性,开始加速打造为AI设计的GPU硬件。
2016年,在OpenAI成立初期,老黄就亲自把第一台装载了8块GPU,当时叫P100芯片的超级计算机DGX-1,送去OpenAI的办公室。
在上面写到:“致马斯克及OpenAI团队,为了计算和人类的未来,我向你们介绍世界上第一款DGX-1。” 落款,Jensen Huang。
这台DGX-1价值过百万美元,是老黄带领英伟达3000名员工,耗时三年打造,能把OpenAI 一年的训练时间,压缩到短短一个月。
OpenAI当时还是一个非营利组织,马斯克,奥特曼等一众早期员工兴奋不已,拿着马克笔在这台DGX-1上签名写下自己的名字。可能你也注意到,众多签名中有一个中文名字,范麟熙。他当时还在斯坦福求学,是OpenAI最早的实习生之一。如今,他也入职了英伟达。
这个时候,华尔街终于意识到,他们曾经给出“零市值”的CUDA,成为了英伟达入局人工智能浪潮的秘密绝招。多年的布局已经让CUDA软件生态被众多业界和学界专业人士所熟悉所推荐,护城河已筑成。这时候,英伟达的竞争者们也意识到GPU和CUDA生态的重要性,然而,他们已经落后得太远了。
然而,英伟达的战斗还远未结束。虽然人工智能届已经意识到GPU的重要性,但当时,需求也只停留在学术界和科技大厂实验室。
AI的爆发增长点还没到,老黄必须要静待时机。
04 百变金刚
2012年之后,GPU的用途开始显现在各个市场,英伟达开始多方布局。这些市场争夺战,也是几场硬仗。
有的打输了,有的打赢了。但总之,就像黄仁勋预期的那样,更多扇门向英伟达打开了。
首先,是手机芯片。
4.1 手机芯片:英伟达与三星,苹果和高通
苹果手机iPhone自2007年诞生以来,引领的智能手机热潮推动了移动互联网市场的高速发展。正因为智能手机对图像处理的高需求,这对GPU来说,成了一块巨大的蛋糕。英伟达开始攻打手机市场,也引发了接下来几年的混战。
这是英伟达与三星,高通,以及苹果之间的爱恨情仇。我们看看老黄是怎么输掉手机芯片这场战斗的。
我们刚才有提到,英伟达之前一直是苹果Mac电脑系列的GPU提供商,而自然也想争取iPhone手机芯片的合作。
手机芯片这样一块大蛋糕,除了英伟达想合作,AMD也想,英特尔也想,三星也想,高通也想,联发科也想,谁都想。那大家想想,苹果怎么想呢?
结果,苹果说:你们都别想了。我自研。
2010 年,苹果推出了首款自研芯片Apple A4处理器,由三星来代工,同时合作了高通的基带芯片。我们来画个简单的动画来给大家解释一下移动手机芯片。
移动手机芯片被称为SoC,是System on Chip的缩写,分为两个部分,分别是BP(Baseband Processor)和AP(Application Processor),前者指的是基带芯片,我们手机能够打电话上网,主要靠它;后者的AP指的就是处理器,包含了CPU和GPU。
所以,苹果自研出来了自己的AP处理器并给三星代工之后,再加上高通已经积累了很多年经验的BP基带芯片,自然就没英伟达什么事了。英伟达虽然推出的独立移动芯片,也就是AP处理器,叫做Tegra系列一度获得了不少订单,包括小米手机,小米3发布的时候雷军还和黄仁勋在台上梦幻联动;然而,英伟达最大的问题是,自己没有基带芯片的能力,厂商买了英伟达的Tegra处理器,还要另外向其他厂家买基带芯片。
同时,虽然英伟达的移动GPU看似功能强大,但功耗发热问题,以及英伟达是从电脑芯片“半途转行”到手机芯片,底层架构被认为比较老旧,有点水土不服。所以,一直以来,英伟达Tegra芯片的口碑并不算好。
到2014年第三季度的时候,苹果的自研移动芯片占据整个市场13%的份额,高通是42%,三星4%,而英伟达在移动手机芯片上的市场占有率下降到仅仅1%。
然后,英伟达,就将三星和高通告上了法庭。
2014年9月,英伟达率先发起诉讼,不仅起诉三星,还起诉高通侵犯英伟达的图形技术专利,说三星和高通在他们的SoC芯片中使用了英伟达GPU的7项专利权。之后,在两个月后,三星迅速提出反诉,指控英伟达推出的Shield平板电脑侵犯了三星的8项专利。
所以,这个官司一打就是接近两年。终于,2016年,就在美国国际贸易委员会宣布最终裁决前几个小时前,英伟达三星以及高通达成了庭外和解。当时市场觉得非常意外,英伟达当时告三星告高通不就因为想收专利费吗,但和解条款里面没有涉及任何的费用。想当年,英特尔和英伟达的官司也是和解的,但英伟达还向英特尔要了15亿美元的专利费呢。
当年就有一些观点认为,可能英伟达觉得最终的判决会对英伟达不利,而且2016年的时候,英伟达已经找到了下一个发力的风口,决定放弃移动芯片市场,全力去进攻这个市场。
大家能从英伟达股价中看出来,新市场的业务已经起飞。所以,和解也就和解了吧。
虽然英伟达进攻手机移动芯片以惨败收尾,但似乎老黄还没有完全放下手机芯片这个大蛋糕。在三年前,2020年,英伟达一度想从软银手中买来ARM,想结合CPU和GPU,继续进攻手机移动芯片,虽然这项交易最终因为反垄断法而流产,没买成,不过也向我们透露出黄仁勋的野心:他依然在盯着每一个可能的市场。
软银旗下的ARM现在由孙正义主导,寻求在今年年底之前上市,我最近有听到业内消息说可能会在十月定价,之后很快IPO。
回到苹果上来,苹果开启自研芯片之路之后,与英伟达的合作关系就越来越浅了。苹果还在2015年,挖走了英伟达深度学习软件主管乔纳森•科恩(Jonathan Cohen)。
各种事件的摩擦,也让英伟达很不爽,在2019年,英伟达发布CUDA策略更新时,明确点名苹果,表示未来的NVIDIA CUDA软件产品将不再继续支持苹果的MacOS操作系统。
回顾苹果自研芯片、遛了英伟达这么一大圈,也告诉了黄仁勋一个道理:在商业世界里,最好的客户可能就是最危险的对手。如果甲方自己拥有了足够好的技术,那么乙方将不再被需要。
而这个道理对英伟达如此之深刻,以至于在老黄刚刚找到的新赛道中,又继续给他上了一课。这个新赛道就是:自动驾驶。
4.2 自动驾驶芯片:英伟达与特斯拉
虽然老黄对手机移动芯片市场非常恋恋不舍,但当年英伟达转去自动驾驶业务还是非常快狠准的。之前说到英伟达推出的Tegra系列除了手机等移动产品之外,在崛起的汽车自动驾驶行业,也是硬需求。
早在2012年,特斯拉就宣布采用英伟达的Tegra 3芯片,并且在高端车型Model S上率先使用。
之后的几年,马斯克和老黄其实一直眉来眼去,保持着非常好的关系。在2015年的英伟达年度GTC大会上,黄仁勋还把马斯克请到了现场做嘉宾。
这场大会的一年后,2016年,特斯拉公布了Model 3的车型。而就在同一年,英伟达推出了基于两颗Tegra处理器的Drive PX 2,以此希望在自动驾驶领域建立起GPU计算生态。
2017年,特斯拉Model 3开始交付,至此,Drive PX 2被装备在了所有新生产的特斯拉车上,包括Model 3,还有Model X和Model S上。
简单来说说GPU如何驱动自动驾驶。
我们都知道,特斯拉的自动驾驶系统名为Autopilot,它的硬件部分是由8个摄像头,12个超声波传感器,以及1个雷达系统。这些硬件部分会将探测到的数据传给车的软件系统名为Tesla Vision,而给Tesla Vision提供算力的,就是GPU。
英伟达号称,Drive PX2的算力等同于150台苹果MacBook Pro,可以独自满足Tesla Vision达到L4,也就是4级自动驾驶所需要的所有计算任务的运算需求。L1到L5指的是自动驾驶的自动程度,如果到L5完全无人驾驶的程度,需要两台Drive PX 2,而到L5之前,一台Drive PX 2就能搞定。
老黄畅想得很好,自动驾驶技术到L5还有很多年的研发时间,到此之前,特斯拉还有全球一众的车企,全部都是英伟达的客户。
但是,老黄很精,马斯克更精。
在装载Drive PX2的特斯拉车辆交付之后,非常硬核的一些美国特斯拉车主想看看传说中的这个“自动驾驶心脏”长什么样子。于是他们开始拆特斯拉车,看看Drive PX2给装哪儿了。
一般人肯定都猜不到,这么重要的部件,居然就被安装在了副驾驶前面的手套箱的面板后面。
而且,很简单几步,把面板拆了,就能把Drive PX2拿下来替换。当时市场就有声音猜测:这么便捷的更换方式设计,是不是意味着特斯拉想要保留GPU供应商随时更换的灵活性,甚至有一天,特斯拉自己自研GPU,也不用动车身的任何设计。
这个猜想,很快被验证了。
特斯拉的自研FSD芯片在2017年12月第一次试产,2018年7月获得认证后开始全面生产,2018年12月,特斯拉开始用新的硬件和软件对员工用车进行改装。在2019年3月,特斯拉开始在其Model S、Model X、Model 3上批量交付FSD芯片。
英伟达和特斯拉的蜜月期,也只有短短几年而已。而英伟达的股价,搭乘着特斯拉和自动驾驶的风口得到的涨幅,也在2018年底、特斯拉宣布自研芯片之后被腰斩。
而马斯克也不太厚道,在推销自己的芯片是“全世界最好的芯片”同时,还不忘拉踩英伟达,说FSD比英伟达的车载芯片要好7倍。气得老黄硬气发声明回怼,说马斯克拿特斯拉和英伟达的自动驾驶芯片比较不准确。马斯克举例的特斯拉芯片是“全自动驾驶自研芯片”,运算能力是每秒144万亿次,然后拿英伟达举例的是英伟达用于“辅助自动驾驶”的DRIVE Xavier芯片,运算能力是30万亿次。
老黄说,要公平的比,你应该比较的是英伟达的全自动驾驶电脑芯片NvidiaDrive AGX Pegasus,算力是每秒320万亿次。
特斯拉和英伟达结束合作之后,黄仁勋和马斯克之前那么好的私交也基本上成为过去式了,也是挺唏嘘的。
曾经马斯克数次到英伟达GTC大会给黄仁勋站台,完全都没有排练的,黄仁勋也相信马斯克不会有出格的言论,只是开玩笑的警告他说,“不要毁了我的大会”,而我们之前提到过,黄仁勋也在马斯克开创OpenAI的早期,亲自把GPU送过去。结果,苹果发生在英伟达身上的教训,在特斯拉身上又得到了验证。
但是,就在英伟达股价跌倒低点之际,有一扇门给英伟达打开了,这就是加密货币。
4.3 加密货币:英伟达与挖矿
在2019年初,区块链风口来了。其实这个风口有两个牛市,第一个是在2016年到2017年,之后再是2019年开始的第二个牛市。在这两个牛市中,英伟达都赚得盈满钵满。
比特币,以太坊,还有各种各样的加密货币价格飞涨。比特币价格从2019年的3000多美元疯长到2021年底的超过6万美元。
我们知道,加密货币的一大特点是它们是可以用电脑算法来获取加密货币,这个过程简称“挖矿”,而手持GPU的这批“挖矿”者,被称为“矿工”。这些矿工们为了加快获取加密货币的速度和效率,购买了大量的GPU,构建了大规模的算力的显卡集群,来集中“挖矿”。
这样的行为虽然推高了英伟达GPU的价格,甚至引发了游戏玩家的集体不爽,但英伟达确是躺赢的状态。黄仁勋立马从与马斯克决裂的伤感中脱离出来,掉转马头,进军区块链领域。
在加密货币风光的那几年,黄仁勋的话风变为了各种说以太坊有价值,加密货币挖矿的未来,虽然在2023年3月的一篇采访中,英伟达的首席技术官又说加密货币无法给社会带来啥价值,AI有价值多了。
就感觉,妥妥精明的生意人。
但在挖矿浪潮中,英伟达动作很快,各种推出专门面向“挖矿”定制的专业矿卡,比如说GTX 1060,还有之后的P106、P104这种拥有更强算力的专业矿卡系列,以及再之后的CMP系列。但要注意的一点,这些专业矿卡就是为了挖矿生产的,游戏玩家们没办法用,而且,CMP矿卡直接舍弃了图形处理功能。
这让很多游戏玩家们觉得很寒心,觉得英伟达你可是游戏业务起家的,现在完全置游戏用户们于不顾了。
2021年,新冠疫情席卷全球,供应链中断使得全球芯片短缺、价格飙升,同时,美联储降息刺激经济引发市场中流动性泛滥,推动加密货币价格持续走高。这一年,英伟达全年收入创下269.1亿美元,较上一财年的166.8亿美元增长61%,首次实现连续7个季度营收上涨。
这一次英伟达的甲方是市场周期。当市场周期不再是你的朋友,就像之前的微软,苹果,特斯拉一样,英伟达就会摔得很惨。从越高的地方,摔得越惨。
2021年底,加密货币的牛市结束,各类资产价格大跌。同时,以太坊因为升级,从POW(工作量证明)转成了POS(权益证明),简单来说,过去靠堆算力来产出以太坊的方式已经被弃用。这使得,矿工手中大批英伟达显卡不再有价值。
2022年可以说,是英伟达最近祸不单行的一年。
先是3月,英伟达遭遇黑客攻击,导致超过1TB的数据泄露,其中包括了驱动程序、设计图纸和固件等资料,对方认领是南美的勒索团伙Lapsus,目的是要让英伟达开放Windows、Mac OS以及Linux系统下的GPU驱动、解除特定显卡的挖矿限制,目的就是为了“挖矿”。
英伟达在反击失败,一些重要的信息和数据被黑客泄露之后,还是在5月认怂,宣布将Linux GPU 内核模块作为开放源代码发布。
大家还记得在这个系列的开头,“Linux之父”Linus Torvalds给英伟达竖的中指吗?就是因为英伟达长期以来拒绝开源,使得Linux用户体验非常差。没想到,竖中指的十年之后,英伟达终于给开源了,但原因竟然是因为黑客勒索。也不知道Linus Torvalds应该开心还是无语。
然后同样在五月,英伟达受到美国证监会SEC的指控,认为英伟达在2018财年的连续几个季度中“没有披露加密货币挖矿是公司游戏收入同比增长的重要因素”,从而涉嫌误导投资人。英伟达对此,也没有申辩,而是选择了和解,支付了550万美元。
在2022年,英伟达股价大跌。每股价格从2021年11月26日的315美元上方跌到2022年10月的112美元左右,跌幅接近65%。
然后,就在一个月之后,2022年11月30日,OpenAI发布ChatGPT,生成式人工智能浪潮来了。
在2012年播种了AI市场爆发的期望之后,折腾了这么久,黄仁勋和英伟达终于等到了AI的胜利果实。
05 英伟达与AI:利润1000%的生意
如今在AI芯片市场中,英伟达的市场占有率高达95%。在全球巨头争先恐后的步入大模型训练之战时,英伟达这可怕的垄断,意味着绝对的市场定价权。
英伟达很早之前就密切关注这轮大模型的进展,从OpenAI的第一台GPU,到之后微软帮OpenAI训练ChatGPT用的一万颗英伟达A100 GPU打造的超级算力中心,英伟达都非常清楚AI的进展。
英伟达的GPU,是如今训练通用模型的最优解。GPU在AI工作中的能效是CPU的20倍,英伟达最新发布的H100 GPU在训练大型语言模型方面的效率是CPU的300倍。而英伟达CUDA软件框架则提供了一个通用平台,允许开发人员和用户在不同型号和连续几代GPU上运行相同的软件,实现无缝升级,并显著简化原始开发。
我前几天和硅谷这边的一个头部VC Andreessen Horowitz专门看硬件的投资人聊,他说如今英伟达的护城河并非GPU本身,而是在软件部分。当其他竞争对手看到了这块蛋糕快速推出同类型产品时,即使GPU本身的性能没有太大差别,但市场用户们还是会因为太熟悉CUDA的软件生态而不愿意选择非英伟达的GPU。这就是CUDA从2007年开始积累的生态力量,形成了英伟达如今强大的护城河。
在2023年8月中旬,《巴伦周刊》资深作家Tae Kim在社交媒体上爆料,投行Raymond James的数据显示,制造一枚英伟达H100芯片只需3200美元,但H100的售价高达3万美元,这样算下来H100芯片的成本利润率达到了不可思议的1000%。
我就此也咨询了英伟达内部的线人,他确认了这个数字,还告诉我因为如今英伟达GPU一货难求,不少国际上的科技大厂愿意加价购买,甚至将A100和H100混着卖,英伟达也能有8倍左右的利润。而且这样的排期已经到了两年后。
而这样的定价权,将英伟达送上了万亿美元市值的宝座,成为了有史以来第六家公司加入这样的trillion dollar club。2023年8月23日,英伟达公布了2023年第二季度财报,第二财季营收为135.07亿美元,比上年同期翻倍,比上个季度环比增长88%,创下历史纪录。此外,净利润为61.88亿美元,与上年同期暴涨843%,比上一财季环比增长203%,并且公司未来展望也大幅度好于预期。这让英伟达的股价,又一次暴涨。
当然,英伟达这一次又能风光多久,还是一个未知数。芯片市场中的竞争从来都是残酷的,这一点可以从我们之前讲的每一个例子,每一个时期都能看出来。
而就在英伟达站在最风光的胜利山顶,也面临着高处不胜寒的风险:谷歌的TPU,英特尔将在2025年推出的Falcon Shores,AMD除了推出MI300之外,英伟达的大客户微软也正在与AMD合作共同自研人工智能处理器“雅典娜”(Athena),来制衡英伟达。硅谷不喜欢垄断的供应商,竞争一定会加剧,另外一些专业领域的芯片比如说ASIC,Analog,还有FPGA芯片这些小玩家,也在虎视眈眈,寻找更专业的AI切入口。
虽然1000%的利润率确实也让英伟达还有很高的降价空间、这一回合的血确实很厚,但英伟达还面临一个最大的风险,就是这一轮生成式人工智能是基于Transformer模型发展出来的,它很强大、通用性很强,但AI发展尚在早期阶段,而Transformer不一定是带领人类到达通用人工智能AGI的正确解或者最优解。如果之后大模型发展遇到瓶颈,或者有其他的技术路径出现而GPU不适用的情况,需求消失,英伟达会再次面临巨大的市场风险。
但黄仁勋并没有停止战斗的意思。他如今已经是硅谷科技巨头中现任最久的CEO了,1993年成立英伟达以来已经持续战斗了30年,而他在接受CNBC采访的时候说,他还能再战斗30年。就算之后肉身不在了,还能以AI数字人的方式继续战斗。
在这一系列视频中,我们几乎把英伟达发展路径翻了一个底朝天,发现老黄真的是战斗力爆表的一名创始人,作为一家2B的芯片公司,英伟达的崛起几乎就是跟各大科技巨头不停合作、不停竞争、不停战斗、不停打官司、不停折腾一路走来。
黄仁勋在技术上是坚持的,虽然这样的坚持让很多客户不爽,也让英伟达丢了很多合作,摔过很多摔,但也许没有这样的坚持,英伟达也不会有如今早已铺垫好的护城河。在商业上,黄仁勋是精明的,他足够敏锐足够灵活,虽然在加密货币提供矿机的几年背负了很多骂名,但至少,那几年的业务让英伟达撑到了AI爆发的周期,作为一名商人也无可厚非。
英伟达没有永远的客户,没有永远的朋友。黄仁勋是孤独的,也是叛逆的,他能做的,只有不断往前跑,战斗永不停止。
2005年,英特尔制定了“钟摆计划”。当时,英特尔公司创始人之一、76岁的戈登.摩尔提出了摩尔定律,制定了英特尔处理器微架构和芯片制程更新的时间线。他预测,“芯片上的晶体管每24个月翻一倍,即半导体行业的产品性能每两年翻一倍”。
而在2012年,黄仁勋提出了Huang’s Law黄氏定律。他认为,随着芯片制造商已经达到原子级电路和电子物理的极限,摩尔定律已经过去。而在AI时代,GPU将推动AI性能实现逐年翻倍。
英伟达首席科学家Bill Dally分享了一组数据支持黄氏定律,说从2012年11月到今年5月,英伟达的芯片性能在人工智能计算方面提升了317倍。换句话说,目前英伟达人工智能芯片的增长速度保持在每年增长一倍多的水平上。
而这样的增长能持续多久呢?人工智能将带给我们如何的一个新世界呢?这个问题我们无法回答,但确定的是,英伟达,黄仁勋,还有他的一众对手们,还将会持续战斗。