2024.03.21
本文字数:5147,阅读时长大约9分钟
导读:记者实测对比了目前主流的国产大模型。
作者 |第一财经 郑栩彤 刘晓洁 吕倩
谁是中国版ChatGPT的讨论从未消失,在一众“大哥”面前,一家创业公司被视为最有力的挑战者,旗下名为“Kimi”的应用甚至成为了资本市场的新宠。
站在Kimi背后的是一家叫做月之暗面的公司,该公司3月18日宣布,Kimi 智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到200万字。而在此前,GPT-4Turbo-128k公布的数字约10万汉字,Claude3200k上下文约16万汉字。
长上下文意味着什么?实际能力如何?第一财经记者征求了业内人士的意见并实测了Kimi和通义千问等国产大模型产品。
Kimi为“宕机”致歉
21日下午,月之暗面旗下大模型应用kimi的APP和小程序均无法正常使用。此前,月之暗面发布情况说明:从2024.3.209:30:00开始,观测到Kimi的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从2024.3.2010:00:00开始,有较多的SaaS客户持续的体验到429:engine is overloaded的异常问题,并对此表示深表抱歉。
在一个Kimi团队与用户沟通的群里,Kimi方面人员表示,“Kimi从昨天开始用户量增速很快,工程师已经紧急扩容了几次,还在实施更多应急措施。”Kimi访问量的激增让这家公司的网络一度陷入瘫痪。
公开资料显示,月之暗面由90后杨植麟创立,成立于2023年3月1日,目前已完成三笔融资。今年2月,该公司完成一笔大额融资,以15亿美元投前估值完成超10亿美元B轮,阿里领投,砺思资本、小红书跟投,投后估值约25亿美元,是国内最主要的大模型独角兽之一。
长文本无损压缩是上述公司瞄准的一个方向。据杨植麟介绍,长文本作为公司“登月”的第一步,是新的计算机内存,很本质,个性化并非通过微调实现,上下文定义了个性化过程。杨植麟还认为,大模型“马拉松刚开始,接下来会有更多差异化”。
在20万汉字的基础上,Kimi又将上下文长度提升至200万。关于长度提升后有何变化,21日,月之暗面相关负责人告诉第一财经记者,这会进一步帮助打开对AI应用场景的想象力,包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。
“简单来说,文本长度长就可以跟AI一直对话,AI不会‘遗忘’之前的对话内容,还能有比较好的理解。同时,一个项目代码可达几百万行,如果大模型支持的文本长度不够长,就没法理解并辅助工作。”有IT人员向记者解释。
就“长文本是否是未来竞争的一个差异化方向,抑或大模型厂商都在共同追逐的目标,长文本意味着什么?”的问题,一名大厂大模型研究人员告诉记者,目前判断一个大模型是否强大,还是基于指定评估数据集和用户日常聊天体验,但文本长度普遍有限,这限制了商业价值。在实际应用中,很多时候需要考虑的是需处理的巨大信息量。如果大模型能解决长文本问题,潜在价值是巨大的,例如投喂财务数据输出完整财报、投喂大量病例情况让大模型帮助解决医学问题。
“但值得注意的是,长文本扩展并不一定意味着实际效果足够好,还需要有足够理解能力以及对人类指令的遵循能力,文本之外,图像及文本大模型有更多token需要处理,需要足够长的上下文能力支持。除文本的长上下文外,要实现AGI(通用人工智能)还需要有同时处理时空物多维度信息的能力。”上述研究员说。
而对于目前“与哪些上市公司展开合作”的问题,月之暗面并没有正面回复。该公司负责人对记者表示,其开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业都可以将 Kimi 智能助手背后的同款大模型API接入到自己的产品或服务中,基于 Kimi 大模型卓越的长文本处理和指令遵循能力,升级或打造新的产品或服务。
国内大模型哪家强?
国内大模型发展至今,不少应用已经逐步走入C端,但国产大模型理解能力如何?能理解长文本并给出高质量回答吗?第一财经记者今日实测了包括Kimi、智谱清言、通义千问等国内几大主流大模型产品。
在评测后,记者发现,一些大模型还不支持长文本输入或不支持较大的文档上传,Kimi、通义千问在解读财报、研报、论文方面的能力较好,但Kimi有时会因“高峰时段忙碌而暂不回复”,智谱清言则犯过将非上市公司列入股票行列的错误,文心一言对诸如选股、找最新报告的要求有时不直接回应且出现过核心信息遗漏问题。
为测试对较长且较专业文本的理解和信息提取能力,记者还实测了Kimi和其他国内大模型在提取论文和研报信息的能力。
近日腾讯与清华大学、 香港科技大学联合发布了一个图生视频模型,记者将该模型相关英文论文交给Kimi和通义千问、文心一言、智谱清言和讯飞星火,要求分析核心内容和论文实现方法,Kimi和通义千问都给出详细解答。其中,Kimi点明论文贡献、相关模型的框架和实现的关键步骤,关键词汇还附带英文名词标注,通义千问除了实现方法外,还解答了实验方面研究者如何进行评估。此外,将论文发给讯飞星火app后,讯飞星火给出较短的文档摘要,但不如Kimi和通义千问详细清晰,且讯飞星火对记者的提问表示“在文档中没有找到与提问相关的内容”,讯飞星火网页端对20M以上文档上传则有限制。
此外,智谱清言限制上传文件大小,记者希望上传的论文超过10M限制,记者复制论文内容至对话框, 但很快也超过限制字数,无法发出文字与AI对话。文心一言同样限制文档大小且限制对话框文字长度,导致无法对文档进行分析。
对于哪个国产大模型能读懂研报并给出投资建议?记者将两份不同券商发布的关于人形机器人行业的研报交给Kimi、通义千问、讯飞星火、文心一言、智谱清言,其中一份长达50页,记者要求大模型分析哪些机器人股票比较有潜力,并要求挑出两只可考虑买的股票。
测试结果显示,Kimi和讯飞星火均给出10家有潜力的个股并分析原因,记者追问“如果要挑两只股票买,哪两只比较好”,Kimi和讯飞星火给出了两只个股并解释原因,同时提醒股票投资风险或建议咨询财务顾问意见。通义千问则按产业链不同环节分列20余只有较高投资潜力的个股并解释原因,根据研报资料挑选出两只股票,同样给出投资风险提示并建议寻求专业投资顾问的意见。值得注意的是,通义千问和Kimi挑出的两只股票中,有一只是相同的,Kimi和讯飞星火挑选出的两只股票也有一只是相同的。
即便是给出了风险提示,但这样的结果也让部分券商分析师感到不安。“如果将概念股的信息通过某些渠道加大投喂力度,这是否会引起搜索结果的导向出现偏差,引发较高的投资风险,目前不得而知。”某分析师说。
从记者评测的结果看,智谱清言给出5只潜力比较大的个股中,其列出的公司中有一家并未上市。文心一言则表示,产业链一些环节的公司具有潜力,但没有列出具体个股并逐个说明原因,且未直接回复“买哪两只股票好”的问题,而是列出通用的选股策略。
在财报解读方面,第一财经记者将B站2023年财报PDF文档(700kb)上传至大模型对话窗口,并让AI帮忙解读财报的核心内容。随后,Kimi分段给出了财务摘要数据和管理层评论,列出了净营业额、广告业务收入等主要财务数据;智谱给出了一段财务数据内容,且是原文繁体字,没有转成简体中文,而其他家都给出简体中文的回复;通义千问则分段给出了财务数据、业务数据、业务亮点与战略执行、成本与开支控制等内容,从财报内容解读的全面性和有用性方面来说,较为突出;文心一言给出了不同业务的营收数据,但核心信息净亏损有遗漏,其他大模型没有出现这个遗漏。
记者随后试图同时上传2022年与2023年两份年报让AI对比,智谱清言、文心一言仅支持上传一份文档,Kimi试了几次都显示输出失败,表示“和Kimi聊的人太多,Kimi有点累了”;通义千问给出了两份年报的核心变化,提到了关键的日活破亿、毛利率提升、成本结构改善以及亏损收窄,表现较为突出。
翻译场景上,记者以前段时间Sora的技术文档为例,其中涉及不少技术名词,让AI进行翻译。记者先直接发送网页链接让AI翻译,Kimi仍然输出失败,通义千问和文心一言不支持网页翻译;智谱支持网页翻译,但只翻译了部分核心内容,记者进一步要求其翻译全文,AI回复称“由于版权和长度限制,无法提供完整的翻译”。
随后记者复制了部分关键内容考验各家大模型的翻译能力,从输出结果看,对于大模型训练(training)、扩散模型(diffusionmodels)、LLM、patch这些专业名词,相比翻译器来说,各个大模型都表现得更加智能,但从阅读流畅性、智能分段这种指标来说,智谱略微胜出。
如果要辅助工作学习,这些大模型能起到多大作用?为测试这个能力,记者向Kimi、通义千问、文心一言提出“查询关于深度学习的最新研究报告”的要求,结果显示,Kimi能给出较好回复,但还不是非常“新”,其他两个模型未给出对应内容。Kimi提供的具体报告内容链接中,三篇中的两篇来自2022年——一则来自知乎,一则来自新华网,还有另一篇来自《计算机应用研究》,未有明确时间标注。此外,通义千问回复“作为离线助手,无法实时查询互联网上的最新深度学习研究报告”,并给出几项学术期刊、学术会议推荐。文心一言直接从引言、算法创新、模型优化、应用场景拓展、市场与产业分析等角度给出归纳,但并不符合“最新研报”的诉求。
涉及日常生活的建议,Kimi、通义千问和文心一言给出答案的差距则不太大。记者提出“一位30岁、60KG、165cm的女性想要达到健身目标,该如何进行锻炼计划制定”的问题,Kimi、通义千问、文心一言均从目标、锻炼计划、饮食、休息等几方面给出全方位建议。
能赶上GPT4吗?
Kimi“引爆”概念股,一定程度上显现资本市场对国产大模型能力跃进的期待。此外,近期国产大模型密集发布,厂商最频繁使用的一个词汇是“逼近”,强调自身技术实力“逼近GPT4”。资本市场闻风而动、大模型密集发布背后,国产大模型能赶上GPT4了吗?
一位人工智能行业人士对记者表示,由于目前大模型企业之间并无明确的对比项目,大多通过打榜的形式来佐证自身实力,因此无法通过严谨的第三方数据来区分厂商之间的技术差距,但可以明确的是,自从OpenAI将GPT4闭源后,国内厂商与其差距目前仍较大。
多名业内人士也提到过国内厂商与硅谷厂商之间的差距。智象未来创始人兼CEO、加拿大工程院外籍院士梅涛表示,从通用大模型的角度来说,中国厂商与硅谷厂商之间的差距有被拉大的风险,原因包括人才密度问题、资源问题。2023年,中国初创公司做通用大模型的公司用一千张卡的资源来对标ChatGPT3.5,今年则用万张卡级别资源对标ChatGPT4,而硅谷目前已经考虑十万级甚至百万级的卡做对应的事情,对比缺口比较大。
相对来讲,梅涛认为多模态生成式领域的对比差距相对好一点,不论是Sora还是Midjourney,这个领域生成式模型基本上参数都在百亿级规模左右,该规模搭配千张卡左右的资源,创业公司通过早期融资还是可以实现的。对这个差距没有那么大的领域,梅涛认为中国企业应优先考虑的是如何在产业化方面做好产品迭代以及商业化,这些角度中国厂商很有可能比国外企业更快更敏捷。
澜舟科技创始人兼CEO周明认为,目前中国在大模型算法上原创技术能力并不差,但在顶层设计上可以跟美国学习,或比美国做得更好。周明认为国内缺乏一个国家机制或联盟体来定义一个大模型未来发展的必要趋势。这个问题一旦解决,中国的人才便可以快速攻关,虽然算力不足的问题尚存在,但通过算法或应用发力,可以弥补算力不足的问题。
此外,周明认为国内大模型企业要跟国家的发展大趋势配合,而非一味去与美国相关企业看齐。他称,很多国内大模型企业只知与美国企业看齐,亦步亦趋,后者提出一个技术点,国内便想要跟上或进行改良。更合适的动作应从综合趋势上进行推进,最为重要的是应用驱动。中国大模型相关企业与美国企业相比,在应用场景等方面虽然没有大的优势,但也不占劣势。如果在场景和应用角度去反向驱动各个应用,推动国家经济和生产力各个方面提升,中国基础创新能力有可能在下一轮 AI 创新中引领国际潮流。
谈及近一年人工智能领域的动态,中关村数智人工智能产业联盟理事长,原小米集团副总裁崔宝秋是兴奋的,他称,看好大数据和深度学习带来新一代AI技术的快速发展。从时间线上来看,一年多前大模型的发布仍存在“胡说八道”的问题,让人感觉很不靠谱。但在2023年,崔宝秋去到美国,接触大模型最新技术前沿,令他感受到新的时代到来,虽然大模型技术目前是美国引领,但中国企业也在快速跟进。
梅涛近一年也在频繁往返中国与美国硅谷,在他看来,最新的体感就是中美生态确实不太一样,例如在投融资方面,不管是融资还是公司的估值方面,中美企业之间的差距是巨大的,特别是融资的环境,希望今年有所改变。
另外,虽说2024年是创新元年,但就遍地是黄金吗?周明认为不是,国内大模型领域很多地方都没有开拓出来,比如大模型如何结合最后一公里、大模型的商业模式是什么、如何加强交付能力、提高产品的标准化,这些才刚刚开始,方兴未艾。
微信编辑| 高莉珊