作者丨邱晓芬
编辑丨苏建勋
国内大模型行业轰轰烈烈,算力却始终是卡脖子的难题。
数据显示,截至2023年,中国算力总规模位居全球第二,算力规模近5年更是年均增速近30%。尽管如此,AI行业至今的第一感受依旧是——算力不够用。
近期,有一家清华系创业公司瞄准了这一痛点。
这家公司叫「无问芯穹」,项目发起人则是清华大学电子工程系主任汪玉,创始人是他的学生夏立雪。因此,这家公司连名字都有着浓浓的清华印记——1924年清华大学国学部教授汪鸾翔写就的清华校歌,当中便有这么一句,“立德立言,无问西东”。
「无问芯穹」自从去年5月份成立之后,在五个月内就得到了互联网公司、AI公司、知名投资机构的支持。智能涌现发现,他们的股东名单包括百度、腾讯、智谱 AI、红杉中国、金沙江资本等等。
「无问芯穹」创始人兼CEO夏立雪告诉《智能涌现》,目前大模型落地的阻碍之一,是算力领域呈现巨大的需求和供给错配。
一方面,目前全球GPU芯片缺口巨大,英伟达一家又无法满足所有的全球AI大模型训练、推理的需求;另一方面,英伟达以外的多元异构GPU也在快速发展中,AI算力生态分散,难以被整合起来,供应给亟需算力的大模型公司。
夏立雪观察到,现下的算力焦虑,有几种常见的具象化表现:
有公司无法找到符合业务需求的算力;而有的公司找到了算力,但面对这些裸金属疙瘩,又不会用;还有的公司,纵使幸运找到了算力、也知道怎么用,但又因为匹配的工具链不好用,导致产品落地投产比严重不合理。
AI行业困于在算力不足的当下,整体已经出现了分化趋势。
目前,有AI公司“已经在犹豫干不干”,还有的公司更直截了当——“没必要再卷 GPT-5,不如先去探索GPT-4能做在哪些场景落地”。
不过,夏立雪不想让行业因为算力而坐以待毙。为了弥合需求和供给的裂缝,同时让算力更好用,「无问芯穹」也应运而生。而这家公司也是这次清华系AI创业公司中,罕见切入算力方向的一家。
不过,「无问芯穹」不是想要做英伟达,而是从更轻巧的角度切入。
据其介绍,「无问芯穹」相当于在大模型和芯片之间,打造了一个更灵活适配的中间层,让百花齐放的大模型层和多元异构硬件层,实现统一部署。
也可以这么理解,「无问芯穹」相当于做了一个大模型算力领域的“淘宝”,下游的大模型厂商和应用方,一键可以买到好用、高效的算力。而这些算力则是来自于多元的芯片。
目前,「无问芯穹」的「无穹Infini-AI」平台,已经能够支持了Llama2、Baichuan2在内的20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、英伟达等10余种计算卡。
无问芯穹的大模型服务平台
而实现算力普惠,效果也是显著的。夏立雪表示,合作伙伴「同道猎聘」曾在部分城市发布了数字人面试官等由AI驱动的新功能,应用了「无问芯穹」所提供的算力方案,“第一阶段落地ROI(投入产出比)高出原先方案很多”。
相关的合作还在紧锣密鼓推进。
3月31日,「无问芯穹」还宣布了一系列的产业合作信息——包括与智谱AI发布大模型万卡训推计划,共建大模型训推万卡集群;与紫光展锐合作,探索大模型在端侧硬件上的部署与性能提升等等。
"我们定位在中间层,配合就很显得很重要,我们希望能够去连通产业的上下游资源,把大家团结起来,把国内的AGI落地到千家万户",夏立雪认为。
不过,要做好一个中间层产品,尤其是复杂的算力领域,对于团队的要求并不低。为此,「无问芯穹」也聚起了一支有着超大规模算力集群系统管理经验的团队。
在团队方面,「无问芯穹」创始人兼CEO夏立雪曾任阿里云用户增长产品技术负责人,曾经负责过阿里云大语言模型的压缩加速、生成式AI模型芯片的等战略项目;
无问芯穹CEO夏立雪
联合创始人兼CTO颜深根曾是商汤科技数据与计算平台部执行总监,曾帮助商汤搭建过2万片GPU的大规模AI计算平台;另一位联合创始人兼首席科学家戴国浩,现任上海交通大学长聘教轨副教授,清源研究院人工智能设计自动化创新实验室负责人。
夏立雪表示,“只有真正在万卡集群上摸爬滚打过的这些人才能够知道里面有什么样的坑,如何做出一个好的平台产品。”
以下是《智能涌现》与夏立雪的交流(略经摘编)
算力行业的博弈
智能涌现:大模型公司在过去的一年怎么解决算力短缺问题?现在大家还会有这种算力的焦虑吗?
夏立雪:大模型公司目前资金还是比较雄厚的,他们的主要焦虑是找不到符合他们规模的算力量,而且很多云厂商自己也在做大模型,进一步导致了云上可用到的算力很少,这也迫使不少大模型公司直接去买机器。
美国这一次的限制打得大家都有点措手不及,模型规模又还在增长,算力焦虑是会持续的。做一个 GPT-4以上程度的模型,至少需要万卡规模的集群,没有这么多卡的人怎么办?
各大厂商、大模型创业公司基本上都想搭建自己的超大算力,但国内单集群规模能到5千卡以上的,也不是所有大厂都有。另一方面,推理的机器也在逐渐增长。
智能涌现:因为算力太贵,现在是否导致一些分化的趋势了?
夏立雪:有的。
最早英伟达H系列芯片5、6万的时候,大家都愿意租来用。涨到8、9万的时候,很多人就要考虑考虑自己要不要这么大投入了。
现在价格虽然整体是没有继续上涨了,但还是处于试探大家干不干的那个边界线上。很多企业可能觉得我没必要去卷GPT-5了,我先去探索GPT-4甚至3.5能在哪些场景落地,大家的路径就逐渐开始分化。
智能涌现:能否帮我们系统梳理下现在AI算力的价值链?
夏立雪:如果从完整的供应链来说,最上游是造算力的人,但其实这个行业本来利润没有那么高,奈何英伟达一家独大,相当于形成垄断。在这一层的玩家还有AMD。
再往下是IDC,就是把英伟达芯片那些硬件组合成一个集群的厂商,当于提供了数字时代水电煤这部分的价值。再往下,就是大模型公司,以及更下游的行业公司了。
但是还有另一种梳理方式,因为大模型本身是个技术突破带来的产业,所以大模型公司算是这个产业的基石,他们产出新的技术对下游应用产生影响,又产生新的算力需求对上游供应产生影响,可以看出这个产业的迭代是由大模型公司来驱动的,毕竟大家说起大模型时代,肯定都会说是openai带来的,而不是英伟达带来的。
总结来看,算力是最重要的供应源头,模型是最先进的技术源头,这两者的连接效率就非常重要了。
智能涌现:目前的行业现状是什么样的?
夏立雪:现在这个行业看起来好像既供不应求,又供过于求。
供不应求是整体市场上有一堆比大模型公司再往下游的、想要去用模型的公司,或者是基于自己的业务模型做行业落地的公司。这些公司他想要用算力,但又拿不到,拿到了他也没有办法把这些百卡、千卡裸金属很好运用起来的能力。
供过于求是许多算力拥有方也缺少这一层能力。
我们了解到各个地方的智算集群中存在着大量的算力,包括一些异构卡,但他们通常高只会去修改物理裸机配置来服务客户——比如,要么把一组100台的机器卖给同一个客户,要么就空着等下一个大客户,不会把100台机器拆分成10组机器再分给10个客户,因为动态调整问题对于基建层的玩家来说太费劲了。
除了技术外,还要配置对应的销售运营团队。偶尔他们需要把一批机器分给两个客户,他们就得单独为这些机器组一个网络,把它变成独立的、物理管理的空间,这个成本是很高的。
智能涌现:不过国内的这么多的云厂商,他们没有去做这个事?
夏立雪:云厂商本身业务重心是聚焦自身的。他有过去积累的渠道,更倾向于去自建非异构的算力集群,也就是市面上大家正在抢的这一批。
再加上云厂商们之前建设了非常多且复杂的业务场景要支持,还背着很多客户需求与盈利目标,如果要叠加上M×N(多种模型与多种芯片)这种底层的多维度适配业务,对云厂商来说会是一个“灾难性投入”。
智能涌现:要做这种智算中心的算力运营,难的点在哪?
夏立雪:第一,中间这一层云平台需要同时兼顾灵活性和效率,这不是实验室体系能够研发出来的,因为它需要纳管万卡规模的集群,是巨大的系统工程。所以在这种情况下,只有真正在万卡集群上摸爬滚打过的这些人才能够知道里面有什么样的坑,如何做出一个好的平台产品。
国内能把这样规模的卡管理起来的,主要都在大厂。我们团队包括从阿里、商汤出来的一拨人,在超大规模的系统搭建和管理上,有复合型经验。我们团结了很多算力行业的人,以轻资产的方式,为整个大模型行业提供计算基础设施。
如何用技术,缓解算力焦虑?
智能涌现:你们现在的客户类型是什么?
夏立雪:我们目前重点服务的客户有三类:大模型厂商,用大模型去升级自身业务的软件厂商,以及基于模型去做AI原生应用的小企业。
智能涌现:你们的上下游分别是什么厂商?
夏立雪:我们上游的话其实就是这些智算中心,下游是做大模型的一方和使用大模型的一方,比如说法律、金融这些行业的客户。
智能涌现:你们提供的是什么服务?
夏立雪:我们提供的是一个工具链,这个工具链包含了对他所用的这个模型和他所用的硬件进行一个最极致的适配,这个工具链可以使他已经训练好的模型跑到对应的硬件上,而且整体性能和性价比能提升。
我们有点像是大模型算力的一个淘宝套餐组合,让你去部署AI 应用的时候,就像在淘宝上购物时选择不同的尺寸、不同的颜色一样,把模型和芯片组合起来,我们就像是把模型和芯片组合成了一个套餐,直接就给客户就可以用了。客户可以自由地去组合,去选择最适合自己的套餐,相当于是我们是连接了算力层和模型层,让更多的人能够用得上大模型,也用得起大模型。
智能涌现:你们是如何解决你前面说的,算力焦虑和产业链上的利益博弈?
夏立雪:从算法到芯片,从芯片到集群,从模型到应用,是我们在技术能力上的三个层次。
我们首先是能够把单任务效率做到极致优化,包括训练和推理,其中推理的效率提升会更明显。其次,我们把多个任务在多台机器之间调度,把整个集群的效率提升得更高,让每一个任务能够最快速跑完,并且让整个集群一直跑。把这两个方面叠加起来,我们就能够为客户提供最极致性价比的云服务。我们把大家已经接受、能用的芯片,把它的效率发挥到极致,能够用同样的成本干更多的事。
我们有一个用做这个文生图的客户,用到了我们的优化能力之后,生成图片的调用量能够达到8倍以上的,同时延迟也缩到了1/ 10。
智能涌现:你们现在的商业模式?
夏立雪:我们想做的是,让商业化智算中心的算力,通过我的这套工具,被更多的场景客户用起来,另一方面能让客户算力使用的性价比得到极致提升。我们按照token的方式算价格。
智能涌现:相当于你们也有CUDA的接口,也有AMD ROCm的接口?
夏立雪:对的,我们是一个翻译的中间层,你说的这两个都是类似N(芯片)这层的接口,而M(模型)这层接口是pytorch的各种计算图,这两种语言之间的翻译工作是我们做的。不仅让你跑通、跑得正确,另外效率也是最高的。这是我们现在的核心的技术点。
智能涌现:它怎么实现的?
夏立雪:原本多模型和多芯片之间的这个翻译空间是M×N的,是一个非常错乱的交叉组合,我们事先做了中间表达,相当于我在这两个语言的翻译过程中实现了一个自己的内部语言,我先翻译成自己的语,再翻译成相邻层的语言,这样的话相当于我就把这个线条的数量从M×N,变成M+N。这套核心技术能力,我们实验室从08年开始就一直在做。
智能涌现:国内的那几家大模型公司,他们愿意接受这种模式吗?还是他们更倾向于自己搭一个集群?
夏立雪:国内大模型公司现在还是很需要更多算力伙伴的,因为国外的Meta、谷歌都在做开源大模型,不断地去发布它的新的模型来证明它的在这方面的科学价值,竞争也是比较白热化的。不过集群分为训练和推理集群,训练集群太大了,不是我们的核心目标,我们跟大家的合作更多的是在推理上。
这样也形成了分工,在模型怎么用起来方面,他们是需要借力我们这样的生态伙伴来探索的。另外在推理这边对性价比的要求更高,因为它最终是算账。比如,游戏行业上了一个大语言模型用于生成对话,我最后带来的用户体验的提升和留存,和这个成本之间是不是能够算得过来账,所以我们的优化价值也能帮到大家。
其实我们和大模型公司是有一个共同的使命的,就是最终推动大模型在千行百业落地,这里边需要大模型公司提供更好更高效的模型,我们来把端到端的系统效率做到极致。
智能涌现:提到项目的发起人是汪玉老师,汪老师对于您这次创业的助力是什么?
夏立雪:我们项目的发起人是汪玉老师,他是我的导师。我在清华大学从本科一直读到博士毕业,加入阿里之后,也一直和汪老师保持着非常密切的交流。所以我对电子系整个产研体系有比较长期的关注和持续的理解,汪老师为我们公司带来了很多有用的技术与经验输入。
电子系在清华是学生最多的系,清华一共有24万校友,电子系有两万多,积累了非常多在这个行业发光发热的人。
汪老师鼓励学生毕业后创办一些创新公司,基于自己在大学受到的训练,把大公司、政府和高校通过这些创新小公司连接起来。无问芯穹也承载了一部分这样的期待。然后我们在技术方面的积累确实是源自清华电子系,包括我毕业的这个实验室的技术。
智能涌现:你们和清华系其他AI大模型项目之间有没有联动?听说已经和智谱在推进合作了?后续的合作规划是什么?
夏立雪:这次大模型创业潮里,模型层有非常多知名的清华系企业。我们定位在中间层,因为整个市场是足够大的,配合就很显得很重要,我们希望能够去连通产业的上下游资源,把大家团结起来,一起把这个国内的AGI给落地到千家万户。
智能涌现:英伟达的生态壁垒如何构筑的?
夏立雪:CUDA是他的股价支撑点,是他最厉害的地方,但也是老黄最担忧的地方。因为大家在硬件能力上,本质上没有代际的差异,至少英伟达和 AMD之间没有的。软件的这部分护城河,是英伟达靠着历史上非常重的资金和精力投入做起。AI起来之后,他投入非常多的精力去支持这些开源生态,让大家都使用自己的硬件来开发模型。大概十几年,英伟达把这条路径打通了之后,他终于可以“躺着赚钱”了。现在大模型出来了之后,模型之间的结构差异变小了,生态的壁垒忽然变薄了。
原本需要几千个算子交叉组合成几万种以上的计算图的设计空间,有无数的人帮他做,这个壁垒特别厚。但是现在,这几万设计空间中只有那么80个算子组成的不到10种模型结构,就能够支持未来80%的市场,那AMD就可以干,很多硬件厂商都可以干。
智能涌现:您从大厂离开到自己创业,有没有一些思维的转变?科学家创业需要面临的困难和挑战是什么?
夏立雪:我已经算转型非常小的了。一方面是我在清华电子系读博的时候,博士课题是跟人工智能相关的,且电子系本身就是和产业走得非常近的细分专业。另一方面,我在阿里也不是纯做技术,而是做了内部的产品孵化,我需要去设计产品的目标、特色、投入、收益……相当于其实我已经在阿里内部做过一次成功的创业。
但是在大厂创业和自己出来创业又完全不一样,因为现在我要从海量的市场信息中,去调研、去定战略。不管从压力上还是从机遇上来说,和当年的能动空间都是完全不一样的,我觉得对我来说是一个最大的挑战。真的创业之后,我发现其实自己的时间会被拆得非常细碎,你不仅需要去看市场、抓商务、懂技术。大厂里面可能只需要负责最多不到10个任务,然后现在你可能同时负责1000个任务,怎么能够去完整地闭环这些事情,对于一个科学家来说是一个非常大的挑战。
end
end