好莱坞因为抵制 AI 罢工,但还是没拦住 AI 的创作力量进化。
今天以前,你可能还在为《权力的游戏》最后一季而失望。但想象一下,你现在能让 AI 制作一个新的结局,以完全不同的方式进行,甚至可以把你自己作为主角或其他角色放进去。
最近,旧金山初创公司 Flable 推出了一个大型模拟项目「The Simulation」,并发布了名为「SHOW-1」的 Showrunner AI 技术,能够生成以用户为主角的全新剧集。
考虑到好莱坞的编剧和演员都在因为抵制 AI 而罢工,这个成果的发布时机显得非常有趣。
论文链接:https://fablestudio.github.io/showrunner-agents/static/pdfs/To_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf
在这项工作中,他们结合了大型语言模型(LLM)、定制扩散模型和多智能体模拟的能力,生成了高质量的新剧集内容,包括上下文关联、故事进展和行为控制。
像 Showrunner AI 这样的工具毫不费力地制作出不错的内容,可以说确实威胁到了影视行业的创意人员。眼下,好莱坞的编剧和演员正在罢工,要求抵制潜在的 AI 侵袭。而这些刚刚发生的现实情节,却已经被 AI 写进了最新剧集之中,也算是一种反讽了:
如何生成新的剧集?
《South Park》是一部美国情景喜剧动画片,开播于 1997 年,一经推出就获得了巨大的成功,迄今已播出 26 季 325 集。该剧围绕四个男孩 —— 斯坦 - 马什(Stan Marsh)、凯尔 - 布罗夫洛夫斯基(Kyle Broflovski)、埃里克 - 卡曼(Eric Cartman)和肯尼 - 麦考密克(Kenny McCormick)以及他们在科罗拉多州小镇及其周围的经历展开。
一个广为人知的幕后故事是,这部剧的每一集都是在 6 天之内制作完成的。在开会脑暴之后,编剧写出剧本,然后由动画师、编辑、技术人员和音响工程师组成的整个团队完成制作 —— 他们通常要在接下来的一周内工作 100-120 小时。
这种紧凑的制作流程在当代的影视行业中并不少见,但在生成式 AI 逐渐强大之后,情况将会发生变化。
想生成一集完整的新剧集,用户可以向故事系统提供一个高层次的想法,通常包括标题、故事梗概和希望在一周模拟时间(大约 3 小时的游戏时间)内发生的主要事件。
在此基础上,故事系统会利用模拟数据作为提示链的一部分,自动推断出多达 14 个场景。剧务系统负责为每个场景挑选角色,以及如何通过情节模式推进故事。每个场景都与一个情节字母(如 A、B、C)相关联,然后由节目编导在一集节目中交替使用不同的角色组,并跟踪他们各自的故事情节,以保持用户的参与度。
最后,每个场景只需定义位置、演员和每个演员的对话。在舞台系统和人工智能摄像系统完成初始设置后,场景将根据剧情模式(如 ABABC)进行播放。每个角色的声音都已事先克隆,每一句新的对白都会即时生成语音片段。
故事生成过程是模拟、用户和 GPT-4 之间的共同任务。每个人都有自己的长处和短处,也都有自己独特的角色,贡献可以有不同的权重。
「The Simulation」通常提供基于 IP 的背景、角色历史、情感、事件和地点,为最初的创作过程提供基础。「用户」引入自己的意图,对智能体进行行为控制,并提供启动生成过程的初始提示,还要充当最后的判断者,在流程结束时对生成的故事内容进行评估。此外,「GPT-4」 作为主要的生成引擎,根据从用户和模拟中接收到的提示来创建和推断场景和对话。
这是一个共生的过程,每个参与方的优势都能促成一个连贯、引人入胜的故事。本文以提示链为形式的多步骤方法还提供了制衡,减少了可能出现的不必要的随机性,使其与 IP 故事原本的世界更加一致。
在流程上,创作者可以:1、让「The Simulation」自动创建剧集;2、给一两句话的提示;3、如果想了解细节,可以给出提示,然后逐个场景编辑对话场景并重新生成。
研究方法
该研究使用大语言模型 (LLM)、定制化 SOTA 扩散模型和多智能体模拟,实现情境化、故事进展和行为控制,最终为故事 IP 生成了高质量影视剧集内容。
现有的生成式 AI 系统,例如 Stable Diffusion(图像生成模型)和 ChatGPT(大型语言模型),一般擅长完成短期(short-term)任务。然而,使用人工智能模型生成完整、有构思规划的长篇故事和影视剧集具有广泛的应用前景。
该研究的整体思路是将大型语言模型与图像生成模型结合使用。其中大型语言模型主要使用的是 OpenAI 的 GPT-4 模型,图像生成方面采用的是自定义的扩散模型。
大型语言模型
该研究大量使用 GPT-4 来影响模拟中的智能体并生成南方公园剧集的场景。由于《South Park》大部分剧集本身就是 GPT-4 训练数据集的一部分,因此 GPT-4 已经对角色的个性、谈话风格以及其整体幽默感有了很好的了解,无需定制微调模型。
为了模拟多步骤创意过程,该研究使用不同的提示链来比较和评估不同场景的事件,以及它们如何将整个故事推向令人满意的、与 IP 一致的结局。
这模仿了人类头脑风暴的过程,即通过多个不连续的步骤对创意进行构建和完善。通过利用 LLM 的生成能力和提示链提供的迭代完善功能,该研究有效地构建出了动态、详细且引人入胜的故事。
例如,在创作 14 个不同的场景时,该研究先提供了一个概括性的提示,勾勒出总体叙事,然后再提供具体的提示,详细说明和评估每个场景的角色、地点和关键情节。
扩散模型
为了训练自定义的扩散模型,研究者从以往的剧集素材中收集了一个由大约 1200 个人物和 600 张背景图片组成的综合数据集,作为模型学习该剧风格的原材料。
为了训练这些模型,研究者使用了 Dream Booth。训练阶段的结果是创建了两个专门的扩散模型。
第一个模型专门用于生成以可抠像背景颜色为背景的单个角色。这有助于提取生成的角色进行后续处理和动画制作,将新生成的角色无缝整合到各种场景和设置中。此外,角色扩散模型允许用户通过图像到图像的 stable diffusion 过程,根据自己的长相创建一个角色,然后作为参与的智能体加入模拟。由于用户可以克隆自己的声音,因此很容易想象出一个基于用户特有的长相、写作风格和声音而完全实现的自主角色。
第二个模型用来生成干净的背景,尤其是外部和内部环境。模型为生成的角色提供了互动的「舞台」,从而可以创建各种潜在的场景和情节。
由于这些模型的输出是基于像素的,因此其生成的图像在分辨率上存在固有的局限性。为了规避这一限制,研究者使用了 AI 升频技术(特别是 R-ESRGAN-4x+-Anime6B)对生成的图像进行了后期处理,完善并提升了图像质量。
对于未来的 2D 交互,训练基于 transformer 的定制模型使其能够生成基于矢量的输出,这一点具有很多优势。与基于像素的图像不同,矢量图形在调整大小或缩放时不会降低质量,因此具有无限分辨率的潜力。这使得模型能够生成无论以何种比例观看都能保持质量和细节的图像。
此外,基于矢量的图形已经被分离成单独的部分,解决了基于像素的透明度和分割等后处理问题,而这些问题使得将生成的资产集成到程序化世界构建和动画系统中变得更加复杂。
解决延迟问题
当然,在这个过程中,有一些问题需要解决,比如延迟。
在实验中,生成一个场景可能需要长达一分钟的大量时间。由于是在游戏过程中生成剧集,因此生成时间大部分可以隐藏在用户仍在与模拟或其他用户界面交互的时刻。减少生成场景或情节所需时间的另一种方法是使用更快的模型,如 GPT-3.5-turbo,可用于质量和准确性要求不高的特定提示链。
下图是 GPT-3.5-turbo 和 GPT-4 的响应时间对比。随着模型和服务基础架构的改进,以及其他因素(如因用户需求高而导致的人为节流)的消除,生成速度在不久之后会有所提高。
在场景播放过程中,通过一个简单的缓冲系统,至少一个语音片段是提前生成的,从而避免了与音频生成有关的对话行之间不必要的停顿。这就意味着,当一个角色正在播放其语音片段时,下一个语音片段的网络请求已经发出了,等待其生成、下载文件,然后等待当前发言人完成对话后再播放(延迟)。这样,下一个对话行的语音片段就可以在没有任何延迟的情况下发送。文本生成和语音克隆服务的速度越来越快,可以实现高度自适应和近乎实时的语音对话。
此外,研究者还表示,本文方法的亮点在于缓解了「老虎机效应」、「燕麦片问题」和「空白页问题」等困扰传统生成式 AI 系统的问题。更多研究细节,可参考原论文。
以前,AI 生成的内容通常被认为质量较低,但「The Simulation」却提供了一种全新的可能。设想一下,如果迪士尼公开宣称制作了一部完全由 AI 生成的电影呢?如果斯皮尔伯格单枪匹马制作了一部 AI 电影呢?这种看法会不会立即改变,现在还真是很难说。