第四范式戴文渊：深耕行业大模型十年，这是中国AI市场的风口

第四范式戴文渊：深耕行业大模型十年，这是中国AI市场的风口 | 涌现36人

时事新闻2024-04-25 17:58:07无忧百科

第四范式戴文渊：深耕行业大模型十年，这是中国AI市场的风口 | 涌现36人

第四范式创始人兼CEO 戴文渊

访谈｜周鑫雨苏建勋

文｜周鑫雨

编辑｜苏建勋

封面来源｜企业供图

涌现（Emergence），是生成式AI浪潮的一个关键现象：当模型规模扩大至临界点，AI会展现出人类一般的智慧，能理解、学习甚至创造。「涌现」也发生在现实世界——硅基文明一触即发，AI领域的创业者、创造者，正在用他们的智慧与头脑，点亮实现AGI的漫漫征途。在新旧生产力交替之际，《智能涌现》推出新栏目「涌现36人」，我们将通过与业界关键人物的对话，记录这一阶段的新思考。

一整年来，“第四范式”创始人兼CEO戴文渊朝客户泼了不少冷水。

“你先忘记AI，忘记大模型，先想清楚你要的是什么。”

这些“灵魂拷问”的背后，是戴文渊作为一个人工智能行业老兵，对“技术跟风热”的本能思考与反问。

在投身AI创业前，戴文渊曾就职于华为诺亚方舟实验室，也负责过“百度凤巢”（百度的搜索营销系统）的研发。他觉得技术需要服务于解决核心问题，“不是因为有了机器学习的技术，你才硬套上技术去解决公司的问题”。

但技术浪潮的起落，本就如乱花迷人眼。2014年，第四范式成立。至今十年来，戴文渊经历了大数据、CV（计算机视觉）等风口。当进度条拉到大语言模型石破天惊的2023年，他发现同样的问题在风口中重复上演：从业者只想追逐技术热潮，却忘记了业务核心问题。

ChatGPT的智能涌现，让全行业为之沸腾。但在戴文渊看来，ChatGPT带来的大语言模型浪潮，对不少行业而言是个美丽的泡沫，“大语言模型解决的是说话问题，但大部分行业的核心问题，都不是说话”。

他为36氪举了不少例子：零售行业核心问题是怎么做好供应链，医疗行业核心问题是怎么诊断和预防，金融行业的核心问题是如何风控——这些核心问题对应的数据模态，分别是监测数据、体检报告、欺诈数据，都不是语言。

“在一个大语言模型基座上嫁接其他模态的数据，是非常困难的。”戴文渊直言，“现在市场上99%的行业大模型，其实都是行业大语言模型，没法解决核心问题。”

真正的行业大模型到底是什么？

基于不同模态的场景数据，训练出的“场景大模型”——这是戴文渊给出的答案。

GPT本质上是让AI能够预测下一个token。戴文渊觉得，大语言模型的出现，限制了大家对Transformer的想象——既然大模型能预测下一个文本，为何不能预测模态各异的“X”？

若将“Predict the next X”的思想，运用到解决行业问题，“X”就代表了不同模态的行业核心数据。3月29日，第四范式发布了行业大模型平台“先知AIOS 5.0”。行业客户只要在平台上传不同模态的核心数据，就可以低门槛训练出解决核心问题的场景大模型。10年来，这是第四范式先知AI平台的第五次迭代，而这部分业务，在第四范式的营收占比中，已接近60%。

只是在市场信仰派和技术信仰派争论不休的当下，行业大模型的故事看上去不够性感。在市场信仰派眼中，行业大模型总有一天会被足够强大的通用大模型颠覆，不是长远生意；在技术信仰派眼中，行业大模型解决的是单点问题，与AGI的信仰相去甚远。

戴文渊却认为，行业大模型，就是一条基于自身优势、通往AGI的“纵向道路”。行业多、数据多，是中国大模型行业的优势。在戴文渊看来，理论上将成千上万个场景大模型相融合，每一个Vertical（垂直领域）都做到极致，覆盖面越来越广，没覆盖的地方越来越少，“你感知不到我还有不知道的地方，就能无限接近AGI”。

通往AGI的路线需要因地制宜，在戴文渊看来，大模型的商业模式也不能照搬OpenAI。他告诉36氪，OpenAI是一个大模型公司，商业模式借鉴的是Adobe等工具型企业，放置中国，是个很小的市场。相对地，第四范式是个行业大模型平台，商业形态借鉴了Salesforce或Palantir，“对应的是To B科技市场，市场规模会大很多”。

不过，AGI的话题终归遥远，戴文渊眼中的头顶大事，是用行业大模型为客户提效。

“实际上我觉得各行各业需求，并不复杂。我们要解决的，是从客户利益出发，与客户一起清醒判断清楚自己要什么，再回过头去琢磨技术。”他总结。

以下为智能涌现与戴文渊的对话，经整理编辑：

真正的行业大模型，叫做场景大模型

智能涌现：多年以前我们和第四范式接触的时候，你就提到“AI Everywhere”的概念。这两年随着AI技术的演进，你觉得现在第四范式做的大模型和更早时候有什么不同？

戴文渊：我们并不是从今天才开始做行业大模型，其实从十年前创业第一天开始做的就是行业大模型。在“先知1.0”（第四范式在2014年12月发布的AI平台）推出的时候，做的是高维实时自学习，本质上就是行业大模型，“高维”就意味着参数要大。

只不过那个年代，在维度还不够高的情况下，行业模型的生成能力有所欠缺。我们只能在盈利能力特别好的场景上把规模做大。如果盈利能力不是那么好的场景，用现在参数规模的模型去解决问题，最后经济账算不回来。

现在随着算力和分布式模型训练算法的成熟，做十亿级以上维度的大模型的门槛或成本，逐渐降低到了行业能接受的程度。因此我们现在的行业模型，已经到了可以用生成式AI去解决行业问题的阶段。

智能涌现：“先知AIOS 5.0”平台定位是怎样的？

戴文渊：“先知 ”的定位就是行业大模型。我们对行业大模型的认知，可能和现在市面上所谓的“行业大模型”不一样。

现在我们看到的市面上99%的“行业大模型”，在我看来不是真正的行业大模型，而是叫行业大语言模型。比方说金融机构的金融术语大模型，它可能比普通的大模型更能听懂金融机构业务人员说的话。

智能涌现：为什么行业语言大模型不是真正的行业大模型？

戴文渊：我们发现绝大多数的行业，语言模型并没有在解决核心问题。不能说行业语言模型完全没有用，但是比如说金融行业的核心问题是控制风险，而不是和客户聊天。再比如零售行业的核心是要做好供应链和销售，医疗行业的核心是去诊断，给出治疗方案，都不是和客户聊天。

智能涌现：不少友商是根据几个主流行业，比如医疗、金融、制造业等等，来推出行业大模型。你怎么看待这样的划分方式？

戴文渊：如果这个划分方式是工业一个大模型，金融一个大模型，在我看来太粗了。这么划分一定不可能做出一个真正解决业务核心问题的大模型，哪怕是金融行业，银行、保险、证券都是不一样的。

那为什么现在会有金融大模型？实际上它不是金融大模型，只是嫁接过一些金融术语的大语言模型。假设你丢一个交易，问这个模型是不是欺诈交易，或者问大模型能不能贷款，得到的答案基本上都是胡扯的。

这就是为什么我觉得这些行业大模型没有解决核心问题的原因，因为每个行业的核心业务，绝大多数都不是说话。

智能涌现：那应该怎样划分行业模型？

戴文渊：在我看来，所谓的行业大模型不是一个行业一个模型，而是一个场景一个模型。所谓的行业大模型下面会分成很多不同的场景，或者可以说行业大模型是场景模型的一个集合。比如体检报告预测并不代表医疗，而是代表医疗的一个场景，或者说是慢病管理的场景。

这些场景也可能是特殊的模态，比方说医疗场景可能是体检报告，金融可能是信用报告。基于这些特殊的模态，我们要去构建生成式AI模型。

智能涌现：你提到语言模型的技术架构是预测下一个字符，行业模型则是预测下一个“X”，这个“X”指的就是不同场景的模态吗？

戴文渊：是的。我们解决一个问题，它有确定的模态，有一批数据，之后就是去训练一个基座。行业大模型要解决行业问题，同样也要训练行业基座大模型，只不过模态不是语言。就像预测下一个体检报告，数据的模态是体检报告。至于上面需不需要嫁接其他模态数据另说，解决问题首先是需要一个行业基座大模型。

智能涌现：第四范式和下游企业的开发者在AIOS 5.0上分别承担怎样的角色？

戴文渊：第四范式承担的主要是平台的开发。或者咱们说个最极端的例子，假设OpenAI能够把它所有的语料传到AIOS 5.0，第四范式平台下面也有足够多的GPU，我们的平台就能开发出一个GPT。

要培养会训练行业大模型的AI

智能涌现：行业的场景有成千上万个，每个场景一个基座模型，第四范式做的过来吗？

戴文渊：各行各业的行业大模型都不可能由第四范式一家来解决。我们不是选择发布几千、几万个模型，而是发布一个行业大模型的开发和管理平台，这也是先知 AIOS 5.0的核心价值。

当企业需要开发一个行业大模型的时候，可以把特定模态的数据上传到上面，低门槛开发出一个行业大模型。我们去解决各行各业场景的问题，实际上是要把模型开发的门槛降低。

我相信未来第四范式开发出来的模型只是里面的千分之一、万分之一，甚至更少。绝大多数的模型，由行业人员开发出来。

智能涌现：相较于大语言模型，训练不同模态的行业大模型会有哪些难点？

戴文渊：最难的反而不是技术。行业大模型的训练也主要基于Transformer架构。Transformer的出现让生成式AI构建的成本降低了，也就是预测下一个字或者其他模态的“X”的成本降低了。我们现在能用过去同样的成本，做出更大的模型。

行业大模型构建的难点在于，当场景越来越多，你就无法在每个场景都用最优秀的科学家去做。这一行科学家人数太少。

智能涌现：这是不是也牵扯到AI公司如今的人才密度问题？

戴文渊：我觉得这个不是人才密度的问题。如果你面对的不是做一个模型，而是做一百万个、一千万个模型，没有哪个AI公司能有那么多人才，地球上都没有那么多的人才。

智能涌现：那第四范式的解法是什么？这个算是做行业大模型的护城河么？

戴文渊：要实现这条路径，有一个必不可少的技术叫做AutoML——自动机器学习。能够用不是那么顶尖的科学家，甚至非科学家的工程师、数据分析师，去把这么大体量的模型训练出来。AutoML不说每个模型都能做到世界上最顶尖的水平，但普遍可以做到排名Top 5%的水平。

为什么我们在AutoML上会有优势？是因为我们做过的场景太多了。AutoML是一个失败的艺术，不是成功的艺术，并不是说我有一个别人都不知道的灵丹妙药或者算法。

每天我们都有几百上千个场景在训练，不仅训练成功了很多大模型，也训练失败了很多大模型。这些失败都是AutoML调整、优化的宝贵财富。日积月累，积累了将近十年，这是我们最不可被超越的。

智能涌现：先发优势和积累还是很重要。

戴文渊：对。比如说谷歌的搜索引擎，早期可能是一个算法，后来大家就是用谷歌用得多，它出的结果哪里不好它自己知道，知道以后自己修改。你不怎么用别人的搜索引擎，别人就很难去超越谷歌。

落地的第一关，是帮客户想清楚自己要什么

智能涌现：在场景模型的落地过程中，您觉得困境是什么？

戴文渊：在我看来，最大的困境是认知的问题。其实绝大多数的行业知道自己的核心问题是什么，但是当一个新的技术出现的时候，他们往往在讨论新的技术的时候，就忘记了行业的核心问题是什么了。

比如说零售行业要解决供应链问题，但当大数据出现后，他们就变成收集数据了，忘了自己其实要解决供应链问题。同样，当CV（计算视觉技术）出现后，他们就变成我要研究人工智能、研究人脸识别问题；当大语言模型出现后，又开始研究怎么说话。

排第二的问题实际上叫做弥合两边差距。企业也知道自己要解决什么问题，但技术的语言和业务的语言之间是有差距的，弥合这个差距也要花不少时间。

智能涌现：这些困境现在仍然存在吗？

戴文渊：这两个问题，我觉得过去一年基本解决了。你看去年这个时候，各行各业都在上线大语言模型。这么干了半年以后，很多客户突然发现我不是说话的，是卖东西的、批贷款的、做设备管理的。现在基本上大家的认知已经过来了，后面紧接着就是扎扎实实地把这个问题解决了。

刚才讲到的数据、算力、成本方面的问题，是实实在在落地时要解决的问题，我觉得不算什么大问题。包括数据，过去如果你整理得不太好，那今天开始就把数据规范好，很快可能就有数据了。咱们也不是说明天就一定要把所有的行业大模型都做出来。

算力的成本，各方面我们都要做判断，如果场景模型创造的价值足够大，是天量的价值我们可能搞到千亿参数，海量的价值可能搞到百亿参数，中等规模的搞十亿参数，总能找到一个适合你的规模和成本。

智能涌现：企业想要在AIOS 5.0上生成一个场景大模型，需要多少数据？

戴文渊：我只能说训练数据和参数量是成比例的增加，你需要一个量级的参数，不一定需要同一个量级的训练数据，如果参数量只有1K，训练数据少一个数量级也可以。

智能涌现：场景问题必须要用大模型来解决吗？

戴文渊：其实并不是说所有的事一定是必须。如果你能接受它没那么好，参数量也可以不那么大。

但是如果说在行业里面，咱们就是要追求极致的业务效果，参数量就应该变大。对于营销场景，当参数量变大了，它营销得能够更精准，在能更精准地知道你明天要买什么样的东西的情况下，我的收益就很大了。为了这个我就应该把大模型做大。

智能涌现：下游企业用得起场景大模型吗？

戴文渊：这取决于要把参数量做到多大。现在训练到百亿以上参数的成本还是吃不消的，如果是十亿级参数，对绝大多数我们所看到的客户而言，还是一个可以接受的范围。

智能涌现：成本主要来源于算力？

戴文渊：是。当参数量增加一个数量级，其实成本增加的比一个数量级更多。对于普通的场景，十亿参数规模还是在可以接受的范围。

智能涌现：今年场景大模型会给第四范式带来比较好的商业回报吗？

戴文渊：我觉得今年大家会思考一些更脚踏实地的问题。整个市场营收的增长，今年肯定会看到。

通往AGI，我们也有纵向优势

智能涌现：从旁观者的视角来看，做小场景的模型往往是市场导向型的。你有通往AGI的理想吗？

戴文渊：我觉得AGI就是无穷大，做AI的人可能永远都到不了，但你要永远逼近它。从科学的角度，我认为我永远到不了AGI，但对于个体感知而言，只要AI的能力能覆盖你所能问出的所有问题，在你的视角里就是AGI，这可能不需要多久。

智能涌现：怎么逼近AGI？

戴文渊：实话说我们在很长时间里思考过通往AGI的两条路。

我们国内有大量场景和数据优势，从一两个，到一万个、十万个、百万个，当我们覆盖场景足够多，把这些模型拼起来，最后你可能也实现了AGI。这是纵向的路线，也是我们会在相应领域，比OpenAI更有优势的地方。
另外一条是横向的路，用OpenAI的方式去打败OpenAI，对于绝大多数公司，至少此时此刻机会不是很大。因为他有你一个数量级以上的资源，如果你走它的路，打败它是不切实际的。

纵向方式是每一个Vertical（垂直领域）都做到极致，覆盖面越来越广，没覆盖的地方越来越少，你感知不到我还有不知道的地方。横向路线就是我的能力越来越强，高于绝大多数人的能力。两边都在无限逼近AGI。

智能涌现：现在能证明纵向的路可以走通吗？

戴文渊：我认为纵向这条路一定是能走通的。就好比我们发布的几个场景，我们一个个的Vertical做得能比OpenAI更好，后面要努力的方向就是让我们的覆盖面越来越广。

但通过横向的方式做到这几个能力，需要的资源可能是巨量的。

智能涌现：横向和纵向，哪条路更难走？

戴文渊：大家难的地方不完全一样。横向的往上再堆，其实是资源的指数级增加。我们要解决的其实是有效数据量指数级增长时，算力和数据获取的成本怎么能够不指数级增长。

纵向对应的是我们需要去一个个突破场景，可能每个场景不一定要做到万亿参数，绝大多数场景在十亿、百亿参数量，少部分在千亿这个量级。将来随着算力成本的降低，可能绝大多数场景都能做到千亿参数。我们需要突破的是场景之间的壁垒，最后把这些场景联合起来。

国内大模型，商业模式不能完全复制OpenAI

智能涌现：目前行业大模型，或者更准确说是场景大模型，到了给模型厂商们带来大规模营收，甚至盈利的时间点吗？

戴文渊：如果你这个模型没有创造什么核心价值，哪怕现在盈利了，也不是持久的。

所以，行业大模型需要越来越多地切入到行业的核心问题。只有你创造的是核心价值，行业才会愿意为这个模型去付费更多，你才能带来更多的收入和利润。这是其一。

其二，从商业模式角度来说，不同市场特点的商业模式还不太一样，所以，在中国市场找到更适合的商业模式，是大模型公司在下一个阶段需要重点考虑的问题。