Sora拍片真实体验：大力难出奇迹，全靠人工逐帧后期

时事新闻2024-04-29 01:59:15无忧百科

今年年初，OpenAI发布其首个文生视频模型Sora，可用文字指令生成长达1分钟的高清视频，随即引起广泛关注和多方震动。马斯克就感叹“人类认赌服输”，许多人更是直呼“导演、后期要失业了”，毕竟，这一被称为“造片神器”的模型问世，意味着或许每个使用它的普通人都可能实现“导演梦”。很多人已经在畅想由ChatGPT生成创意文案和脚本，再由Sora从文本生成酷炫的几分钟广告大片。

Sora最初并未对外开放试用，直到近几周，来自加拿大的Shy Kids团队作为少数获得部分Sora权限的制作团队，尝试单纯用SORA取代摄像机，制作了一部时长1分21秒的短片，也为大家揭开了Sora神秘的面纱。

这部《Air Head》短片由3人制作，耗时接近2周。谈及制作过程，他们除了感慨SORA的强大功能，也谈到了制作背后的很多内幕：真实的Sora成片每一秒都需要至少300倍的素材，而且OpenAI的科学家们似乎完全没有意识到，视频存在镜头语言这个需求，AI从文本一键生成我们理想中的大片依然只是美好的想象，

Shy Kids的深度体验也证明了一个关键的事实，在Sora发布时，OpenAI似乎在暗示这些样片都是完全由SORA自称生成制作，但大家看到的样片“买家秀”背后实际上包含了大量人工的专业制作，无论是分镜，编辑，调色，还是镜头，特效，这些目前均无法靠AI来取代。

专业团队的分镜，AI依然看不懂

Shy Kids作为一支加拿大专业影视团队，以其不拘一格和创新的媒体制作方法而闻名。被称为“朋克摇滚皮克斯”，在艺术性层面，他们的作品获得了艾美奖提名并入围奥斯卡提名，而在商业化层面，他们为迪士尼，奈飞，HBO等平台制作过多部作品，在业界有一定的知名度。

即便是这样的专业团队，在使用Sora制作视频时，上来就发现了一个大问题——传统的先写剧本分镜然后开启拍摄制作的流程在Sora上行不通。

本片导演在介绍影片制作时提到，他们使用的Sora依然是传统的输入本文生成视频模式，并不支持现在很多大模型已经应用的多模态输入。

这直接导致了一个尴尬的剧情，由于没法给Sora看分镜图，Sora完全无法生成一段连贯的视频来满足摄影团队的需求，团队只能将每一个分镜都单独生成视频来进行拼接。

但是这里就出现了第二个问题，AI对于事物的理解并不如人类，即便前一个镜头的素材完美符合了导演的需求，按照同样的需求文字输入后，下一段片段依然无法复现相同的元素。

导演对此举了一个例子：假设你要求Sora在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下，它将依据对“香蕉”这个概念的理解来生成视频。通过训练数据，它“学习”了香蕉的各类要素：例如“黄色”、“弯曲”、“有深色末端”等。但它没有实际记录的香蕉图像，也没有类似“香蕉图片库”数据库，只凭借关键词生成它认为的香蕉，这也导致了每次生成得香蕉都无法保证固定一样，这对于长视频拍摄造成了巨大的影响。

为了保持最简单的一致，团队不得不将各种Sora生成片段进行裁剪拼接。

团队展示影片制作过程

以这张气球人骑车的片段为例，由于每次生成主角骑车画面都无法保持统一，看似流畅的画面实际上由三段画面拼接而成。

AI拍片，更耗人力了

由于AI无法稳定生成一个固定的角色或者道具，这也导致了《Air Head》制作时遇到了许多在传统影视中不会遇到的问题。

这部短片的主角是一个黄色气球作为头部的人，由于AI无法稳定地生成这样一个角色，在这部1分21秒的作品中，几乎每一秒都需要大量的后期调整才保证角色的统一。

为了解决这个问题，Shy kids决定大力出奇迹，通过大量生成相关片段筛选相对统一有用的部分，来组合成一部影片，这也让团队原来设想的拍摄电影变成了一部类似纪录片的拼接缝合。

团队负责后期的帕德里克表示：“短片有剧本，但团队需要灵活应变”，“只是获得了一大堆镜头，并试图以一种有趣的方式将其剪辑给旁白。”

其透露道，为了制作这部片子，每一秒钟的成片都需要大概300倍的素材。

而渲染这些原始素材成为了影片最耗时的部分之一，团队表示每次得到的素材长度在3-20秒，但是渲染的时间需要10-20分钟不等。

而即便是渲染出来最终采用的素材，依然逃不过大量的人工后期加工。

Shy Kids提供的信息显示，即便每次都要求生成一个黄色的气球，Sora有时候还是会生成一个红色气球，由于没有更加合适的素材，后期团队只能利用PS和AE将其涂成黄色。

成片（上）和SORA生成视频原片（下）

而有时候则会在气球上出现人脸，这导致需要大量的后期处理，包括分级、稳定化、上采样以及移除不需要的元素。

SORA生成的气球人出现了人脸

OpenAI：什么是镜头语言？

除了需要大量的后期外，对于制作AI电影中最大的障碍，负责本片后期的帕德里克提到了AI目前很难理解镜头语言这个缺点。

帕特里克表示：对于许多文生视频工具来说，一个有价值的信息来源是相机元数据。例如，如果需要用照片训练（大模型），相机元数据将提供镜头尺寸、光圈值和许多其他关键信息供模型训练。

但是对于电影镜头，“跟踪”“平移”“倾斜”或“推入”的想法都不是相机数据中冰冷的数据，而是一个更加抽象性的概念。尽管在影视行业中对象永恒性（道具/人物需要在拍摄时持续存在）制作至关重要，但镜头语言也同样重要，然而目前的Sora不仅难以实现，甚至难以理解这个概念。

Shy Kids表示：“对于如何描述电影场景中的一个镜头，九个不同的人会有九种不同的想法。 (OpenAI) 研究人员在让艺术家使用该工具之前，并没有真正像电影制作人那样思考。”尽管Shy Kids团队知道他们体验的Sora版本比较早期，但依然对于杂乱无章的摄像机机位和角度表示震惊，在团队眼中，他们已经试图在文本中强调固定机位或者镜头语言这个概念，但是他们不太确定到底是Sora无法理解他们的输入方式，还是SORA根本就没有相关的概念。