文|自象限 罗辑 苏奕 编辑|程心
2024年开年,科技圈没有什么比Sora的出现更让人兴奋。
如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。
科技巨头猛推产品,创业公司则乘风而上。
3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资;3月12日,生数科技完成数亿元A轮融资;3月1日,AI视频生成 SaaS服务商「布尔向量」完成近千万元融资...
Sora首次践行了DiT架构,将过去各自独立的扩散模型和大模型融合在了一起,也将视频生成模型的历史翻开了新的篇章。
毫无疑问,一场新的技术风暴正在到来。一夜之间,国内大大小小的视频生成大模型争抢"中国版Sora"的标签。
为了探究这个问题的答案,「自象限」通过国内已有的视频生成产品进行实际体验,并结合公开信息、第三方检测机构数据等多个维度,对当下主流的视频生成模型进行了全面评估。
我们将从产品设计、实测效果和行业分析三个角度,全面探究,究竟谁能成为"中国版Sora"?
一、DIT的创新,谁能复刻?
Sora的风虽然才刚刚从大洋彼岸吹到了中国,但视频生成却不是什么新鲜的话题。
在此之前,这个赛道已经经历了Runway的Gen-2、Pika1.0和谷歌VideoPoet的几波革命浪潮,终于来到了生成效果更好、时间更长、逻辑性更强、更稳定性的"Sora"时刻。
「自象限」梳理绘制出了国内视频大模型公司及产品的基本情况。
图:国内外视频生成大模型企业一览,访问量以2024年2月计片描述
在国外,谷歌、微软这类"硅谷老钱"很早就投入到了多模态视频生成的研究中。去年,谷歌发布了多模态大模型Gemini和VideoPoet视频大模型,让人从直观的效果层面看到了多模态生成视频的可能性。
在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。
扩散模型路线是文生视频的主流路线,在保证效果生成上发挥着重要的作用,所以即使是惊为天人的Sora在底层架构上也只是改造,而非全盘颠覆。
无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的Stability AI公司,紧跟其后的是猛猛向前冲的Runway、Pika,然后才是OpenAI、Meta、英伟达这些巨头。
回到国内,腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领域的研究,时不时地抛出一个demo小小地惊艳一下。但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、Morph studio、右脑科技等公司已经开始面向用户开放。
被称之为"Sora路线"的DiT,全称为Diffusion Transformer,本质是把训练大模型方法机制融入到了扩散模型之中,从Sora技术报告呈现的结果来看,大力出奇迹之下可能会产生世界物理模拟器的效果。
如今,Sora的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不意味着人手一个Sora指日可待,技术、数据、算力、训练规模都是一道道关卡。
近期,Sora核心团队负责人在采访中透露:"Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。"
从技术路线上看,国内的爱诗科技是少数从一开始就坚持了DiT路线的企业,其创始人王长虎在公开采访中谈到,Sora的出现验证了爱诗视频生成大模型的方向正确性。正因如此,爱诗科技定下了"3—6 个月赶超Sora"的目标,抓住机会,奋起直追。
二、产品实测,用户"跑分"
在视频生成模型赛道,目前国内的创业公司大致可以分为两类。
一类是以爱诗科技(PixVerse)、生数科技(PixWeaver)、 Morph Studio和智象未来(Pixeling)为代表的自研基础大模型,聚焦通用场景的视频生成工具。
另一类则包括右脑科技(Vega AI)、李白AI实验室(神采promeai)、毛线球科技(6PenArt)、布尔向量(boolv.video)和MewXAI(艺映AI)。这一类数量更多,也更加产品化,专注于解决某一类场景下的问题,更像是一个AIGC的在线编辑平台。
我们的测试和评比通过三个部分组成,分别是使用门槛,基础产品功能和内容生成能力。
首先是使用门槛。我们测试的8款产品,都已经支持通过网站使用产品(许多创业公司产品只能通过Discord使用),也都可以免费试用。
但其中,仅有爱诗科技的PixVerse不限制免费试用次数,其他产品都有三到五次的试用限制,超过试用次数之后就需要开通会员或充值能量使用,价格从几元到几百元不等。
除了PixVerse之外,其他产品在付费之前基本都有功能限制,比如艺映AI和Pixeling只能生成2s、4s的视频,更长的视频则需要付费。
所以从使用门槛上综合考虑,PixVerse对用户要更加友好,在这一板块相对更有优势。其他产品在使用门槛上则相对平均。
具体情况如下图:
其次是产品基础功能。
我们测试的8款产品,除了神采Promeal和6PenArt之外,都同时具备文生视频和图生视频的能力。而神采Promeal和6PenArt只具备图生视频的能力,不具备直接文生视频的能力。
除了这两家之外,其他厂家就比较成熟,但产品功能差异却比较大。
其中,爱诗科技的PixVerse在基础功能之上还增加了丰富的辅助功能,比如除了正向提示词,用户还可以输入负向提示词,要求生成画面中不要出现某些元素。
图片生成视频时,用户也可以撰写提示词控制输出效果。可以选择视频风格,可以调节画面比例等等。
同类产品中,只有Pixeling拥有负向提示词、图生视频提示词和视频比例调节,只有艺映AI可以调节视频风格、画面比例。
大模型的技术水平决定视频生成的质量,而产品能力则决定了大模型是否能够被很好地利用,与应用场景相结合。
对于视频生成产品而言,功能的丰富程度决定了用户上手的容易程度,对视频生成的掌控能力,并最终影响输出结果和用户体验。
所以从产品的完善程度和功能完整度上,PixVerse整体领先,智象未来的Pixeling排名第二,艺映AI第三,Vega AI第四。其中布尔向量相对例外,作为专注跨境电商的视频生成工具,其在特定场景下功能更加齐全易用,但在视频生成方面相对缺乏竞争力。
当然,基本功能之外,更核心还是视频生成效果。所以第三部分是视频内容生成能力测试。
首先是视频生成时长。Sora目前能够生成60s的视频,但国内创业公司的视频生成大模型,时长大多集中在2s~4s左右,差距并没有特别大。
其次是依据提示词的内容表现能力。
Sora发布时,输出过这样一段视频,其提示词是:美丽,白雪皑皑的东京街道很繁华。几个人在附近的小摊上享受着美丽的雪天并购物。美丽的樱花花瓣和雪花在风中飞舞。
Sora依据这段提示词生成的视频
依据这段提示词,我们也分别使用爱诗科技的PixVerse、右脑科技的Vega AI、MewXAI和智象未来的Pixeling生成了同样一段视频。(由于生数科技的PixWeaver网页端暂停试用,故未纳入测评)
首先是爱诗科技的PixVerse。
4s的内容基本还原了提示词中提到的所有关键词,同时体现了"繁华"和"小摊"的氛围。镜头跟着画面缓缓推进,视频整体风格保持一致,建筑、灯光、路旁的树木、行人都比较真实,画面没有明显卡顿,除了人物行走稍有些不自然之外,没有出现元素扭曲。
PixVerse依据这段提示词生成的视频
其次是右脑科技的VegaAI。
同样4s的内容,同样只有一个镜头,顺着人流密集的街道缓缓推进。但与PixVerse将场景放到华灯初上的傍晚不同,VegaAI选择的是白天。
与爱诗科技的PixVerse相比,VegaAI的人物脚步混乱情况更加严重,部分人物在行走过程中从两只脚变成三只脚,然后又消失不见。此外,部分人物的生成也非常模糊,只有一个人影且在不断变幻。
Vega AI依据这段提示词生成的视频
然后是艺映AI。
与PixVerse和VegaAI有一定的镜头运动不同 ,艺映AI生成的视频镜头是固定的,也是这几个视频中唯一一个选择了正面视角的视频。
但选择正面视角也同样给艺映AI带来一个问题,即在人物的面部表情没有办法很好地处理。视频中迎面走来的两个人面部一直没有稳定下来。此外,艺映AI也同样存在人物移动的问题,但由于生成的视频只有2s,表现得并不明显。
艺映AI依据这段提示词生成的视频
第四是智象科技的Pixeling,4s的视频,采用固定镜头,人物往前运动。类似的画面,除了同样存在人物生成、移动等方面的问题之外,Pixeling对语义的理解明显更浅。
比如提示词中的"繁华",前面的视频都通过灯光、街道店铺、人流来进行表现,但Pixeling选择的却是一个雨天小巷,人流也比较少。整个画面显得比较冷清。此外,提示词中的"购物"该视频中也并没有体现。
Pixeling依据这段提示词生成的视频
最后是Morph Studio。其官网尚未开放公测,「自象限」通过Discord进行测试。
Morph Studio有趣的地方有两个,其一是英文提示词的生成效果要大大好于中文提示词。「自象限」先是通过中文提示词生成视频,得到的结果与提示词毫不相关,随后「自象限」将提示词改为英文,输出的效果直线提升。
图片:Discord截图
从视频内容上看,Morph Studio的视频生成只有3s,要比其他产品的时长都要短,清晰度要比其他产品更低一些,但整体画面内容更加写实。从细节上看,Morph Studio生成的视频仍然存在细节模糊扭曲,人物"漂移"、出现又消失等问题。
Morph Studio依据这段提示词生成的视频
在文生视频之外,剩下两位只支持"图生视频"的玩家——神采Promeal和6PenArt。但这两位,在图生视频上的表现也并不好。
其中,神采Promeal仅支持单张图片生成"动态图",也没有提示词功能。因此生成的视频人物形象扭曲,没有实际使用价值。
神采Promeal依据图片生成的视频
对比来看,6PenArt更像一个AIGC的内容社区,图片生成和视频生成只是其中一个能力。但6PenArt并不支持直接通过提示词生成视频,而是需要先在平台通过提示词生成图片,然后将图片转化成视频。
「自象限」通过提示句"一只正在散步柯基,嘴里叼着一朵花。"生成了四张图片。
图片:6PenArt截图
然后以这四张图片为基础,用提示词"一只在春天里奔跑的小狗。"生成视频。
6PenArt依据图片生成的视频
可以看到,这个视频仍然停留在"动态图片"的状态,与视频相差甚远。
除此之外,布尔向量也没有被纳入到这次评比中。
因为从产品使用体验上,布尔向量的boolv.video更像是一个AI编辑器的概念,当我们输入一段提示词之后,系统会自动将提示词拆解成多个脚本、分镜,然后撰写文案,分别输出多段视频。生成视频之后,用户可以对每一个分镜进行编辑,替换视频、更换旁白和声音等等。
图片:boolv.video截图
但boolv.video的视频生成能力其实很有限,既无法理解深度语义,也不能生成与提示词准确对应的视频内容。
在我们以上测试的产品中,严格意义上只有PixVerse、Morph Studio是专注于视频生成的大模型,其他产品都是由早期文生图、图生图的AIGC应用演变而来。
图片:测试产品是否专注于视频生成
回过头来,我们依据多次测试,针对以上提到的产品进行了整理。
从对提示词的理解能力、画面的逻辑表达能力、画面细节的表现,到视频生成的质量、画面的一致性、稳定性和流畅性等角度。
在测试的8个产品后,综合对比下来,爱诗科技旗下的PixVerse和Morph Studio综合能力相对较好,右脑科技的VegaAI排名第二,艺映AI第三,Pixeling第四。
最后,从整个测评从使用门槛,到产品功能,再到内容生成能力,中国创业公司的各类产品各有千秋。但整体来看,在中国创业公司中,爱诗科技的PixVerse整体能力略高一筹,是中国最具备Sora气质的产品。其次是Morph Studio,这两者构成中国视频生成模型的第一梯队。
其次包括VegaAI、艺映AI、Pixeling则共同处在第二梯队(生数科技因产品暂停使用,未纳入测评),最后神采Promeai、6PenArt和boolv.video则在第三梯队。
以下是「自象限」测评总表:
三、用生产力工具,形成数据飞轮
事实上,对比了国内科技巨头和创业公司到目前为止的落地产品后的情况我们会发现,大公司更慢,反而是创业公司的产品和用户规模跑地更快。
李彦宏也曾经提到:大公司做小创新,小公司才能做大改变。
而想要真正在激烈的角逐中突围,目前来看,除了技术路线选择和产品本身的能力外,产品的使用场景、用户体验、行业应用等等综合维度,仍然是视频生成模型比拼的关键。
产品使用场景方面,如前文所言,一类公司在埋头做新工具而另一类公司则将技术嵌入在某些成熟的产品中,这是两条完全不同的路线。
对于工具类的产品,产品力的一个核心体现在于:能否成为生产力工具。
让我们简单回顾一下Midjourney的发展历程就会发现,Midjourney V5版本是文生图历史上的一个关键临界点,无论是从效果、准确性和速度等多方面的因素来看,V5正式从"玩具"蜕变成了生产力工具,而这一次产品能力的突破,带来的是用户大规模涌入,数据飞轮开始转动,效果日新月异。
图:网友制作的V1-V6的生成效果对比图,来源X
对比"V5时刻"我们发现,视频生成模型也即将迎来奇点。
通过真实的测评我们发现,PixVerse生成的视频在主体一致性、运动平滑度、运动幅度、清晰度等方面都更具备使用价值。
在生产力工具的前提下,也分为两条产品路线,一类是如Adobe公司践行的走专业工具的路线,让专业的人更专业,另一类则是如Word一般,让普通人也能成为生产力。
在这个问题上,Pika创始人郭文景在采访时表示Pika并不是电影制作工具,而是为日常消费打造的产品。PixVerse的思路则更加明确,相比于Pika分层订阅的商业模式,PixVerse在用户量和视频效果都处于全球第一梯队的前提下,仍在持续向世界各地免费开放,这是目前其它视频生成产品都难以企及的。
也正是由于用户友好的态度和领先的视频生成效果,让PixVerse的飞轮先转了起来。根据第三方数据监测平台显示,目前PixVerse的用户规模与Pika处于同等量级,其访问量也远超国内其他主流视频生成产品。(数据来源:similarweb.com)
PixVerse,与Pika,Runway产品页面2024年2月数据对比 国内主要文生视频产品2月数据对比 ▲国内主要文生视频产品数据走势
通过调研我们发现,爱诗科技还积极在国内外赞助/举办各类AI大赛,推动技术加快落地的同时,也在加速实现技术普惠。这个过程中,也有越来越多的用户感受到其产品PixVerse的优势。
除此之外,爱诗科技的用户生态做得非常突出,X上每天都会涌现大量使用PixVerse创作的视频内容,覆盖英语、汉语、日语、西班牙语等多地区。这是其它国内品牌完全不具备的优势,也一定程度上反映了市场的选择。
作者:Michael Heina 视频来源:X 作者:Ameli Caotica 视频来源:X
"PixVerse第一个优点是免费、免费、免费;第二个优点是操作简便且有效,我只需要把图片放进去,不写任何prompt,让PixVerse自己决定画面运动,往往都能得到满意的结果。期待PixVerse可以实现更大幅度的运动以及更长更稳定的视频。" 2024 MIT AI电影黑客松最佳影片提名奖获得者反馈到。
自象限认为,免费并不意味着放弃商业化,而是在产品打磨的初期,通过这样的方式获得真实的用户使用体验和用户生成后的高质量视频数据,再反哺给视频生成模型,将迭代的速度加快,形成数据—训练的飞轮。
四、结 语
综合来看,目前国内整个视频生成模型的技术仍然在效仿国外,但以爱诗科技为首的创业公司已经找到了自己的发展节奏和模式,正通过产品设计、用户规模、运营策略等综合能力进行全面赶超。
相比之下,Sora目前并未开放,能否承受住大规模用户同时在线尚未可知,能否能每次都做到准确、一致的1分钟视频生成仍有待检验。
所以,并不一定非要找到中国版Sora,以爱诗科技为代表的中国视频大模型公司,已经走出了新的、独立的上升曲线。