地球上有生命的历史有40亿年,人类在20万年前才出现。20万年对于40亿年来说,不过是短短一瞬,但人类在这短短的时间里成为了支配地球的力量。
故事,代表着人类的集体智慧。尤瓦尔·赫拉利在《人类简史》曾说,虚构的故事像胶水一样把千千万万的个人、家庭和群体结合在一起。从古至今,任何大规模人类合作的根基,都是某种只存在于集体想象中的虚构故事。
到了近代,人类的智慧通过技术手段仍然在深刻影响着故事创作。在过去的一个世纪里,很多我们最喜爱的故事都是由技术变革推动的。
20世纪30年代:迪士尼通过发明多平面摄像机,制作了声音同步的全彩动画片,引领了动画电影的革新,诞生了标志性的《白雪公主和七个小矮人》。
20世纪30年代:迪士尼通过发明多平面摄像机,制作了声音同步的全彩动画片,引领了动画电影的革新,诞生了标志性的《白雪公主和七个小矮人》。
20世纪40年代:漫威和DC漫画的崛起,得益于四色印刷和胶版印刷技术,这一时期被誉为“漫画黄金时代”,创造了至今仍被识别的“纸浆漫画”风格。
20世纪80年代:皮克斯利用计算机和3D图形技术,由Edwin Catmull等人开创了基础的CGI概念,并制作了第一部完全由计算机生成的长片《玩具总动员》,其图形渲染套件Renderman至今仍广泛应用于电影制作。
每一次技术suncitygroup太阳新城登陆,都会诞生新的内容形式。这些新的内容形式最早都被视为新奇事物,但最终都成为了新一代创作者主流的内容形式。今天,随着生成式AI的崛起,内容形式将又一次迎来升级。
具体来说,我们相信下个世纪的皮克斯不会通过传统的电影或动画出现,而是通过互动视频。这种新的形式将打破传统电影和视频游戏的界限,将深度叙事、观众的主动性和“游戏”融合在一起,开辟出一个广阔的新市场。
对Z世代及更年轻的一代来说,游戏现在是他们消磨时间的首选方式,超过了电视/电影。2019 年,Netflix CEO里德·哈斯廷斯 (Reed Hastings) 在一封股东信中说道:「我们与《堡垒之夜》的竞争比与HBO的竞争更激烈。」如今,对于大多数家庭来说,问题已从「我们在看什么」变成了「我们在玩什么」。
虽然电视/电影/书籍仍然承载着引人入胜的故事,但如今许多新颖且成功的故事,都是通过游戏的方式讲述的。以哈利波特为例,开放世界角色扮演游戏《霍格沃茨遗产》让玩家以前所未有的沉浸感进入霍格沃茨的世界。
这款游戏是2023年最畅销的游戏,首发销售收入超过10亿美元,票房超过了除结局《哈利·波特与死亡圣器(下)》(13亿美元)之外的每一部哈利波特电影。
很多游戏 IP 近期在电视/电影改编方面也取得了巨大成功。顽皮狗的《最后生还者》是 HBO Max 在2023年收视率最高的系列剧,平均每集有 3200 万观众。《超级马里奥兄弟》电影票房收入高达14亿美元,创下了动画电影史上全球首映周末票房最高纪录。
此外,还有广受好评的《辐射》系列、派拉蒙评价没那么好的《光环》系列、汤姆·霍兰德的《神秘海域》电影、迈克尔·贝即将指导的《斯基比迪马桶人》——这个名单还在持续增加中。
游戏影响力大的一个关键原因是,玩家主动参与有助于培养对故事或世界的亲近感。全神贯注玩游戏一小时 被动看电视一小时。许多游戏还有社交机制,其核心设计中内置了多人游戏机制,我们往往能与身边人共同创造并分享这些难忘的故事。
通过多种方式(观看、播放、创作、分享)与一个IP持续互动,故事就不再只是娱乐,而是成为个人身份的一部分。神奇的时刻在于,一个人从「我看哈利波特」转变为「我是波特迷」时。后者更为持久,围绕着原本可能是单人参与的活动,构建起身份认同和多玩家社区。
总而言之,虽然我们历史上的一些最伟大故事都是通过线性媒体讲述的,但未来的故事,将在游戏和交互式媒体中进行讲述。因此,我们相信,下个世纪最重要的内容公司将在这里建立。
鉴于游戏在文化领域的主导地位,我们相信,下一个皮克斯将通过一种将讲故事与游戏相结合的媒体形式出现,其中一种有潜力的形式是互动视频。
首先,什么是交互式视频?它与视频游戏有何不同?在视频游戏中,开发人员将一组资产预加载到游戏引擎中。例如,在《超级马里奥兄弟》中,艺术家设计了马里奥角色、树木和背景,程序员设定马里奥在玩家按下「A」按钮后精确跳跃50像素,跳跃帧通过传统图形管道渲染。这导致游戏具有高度确定性和计算性的架构,开发人员可以完全控制游戏。
另一方面,交互式视频完全通过神经网络实时生成帧suncitygroup太阳新城官网。除了一组创意提示(可以是文本或代表性图像)外,无需上传或创建任何资产。AI实时图像模型接收玩家输入(例如「向上」按钮),并将概率推断下一个生成的游戏帧。
交互式视频的潜力在于,将电视/电影的易获取性和叙事深度与视频游戏的动态、玩家驱动系统相结合。
通过玩家输入实时生成视频的机制,我们可以创建个性化、无限的游戏玩法——有可能能够留住粉丝数千小时,就像那些最好的玩家驱动类游戏一样。
暴雪的《魔兽世界》已有20多年历史,至今仍有约700万订阅用户。互动视频还能实现多种消费模式——观众可以像看电视节目一样靠在沙发上观看内容,也可以在移动设备或上玩游戏。
让粉丝以尽可能多的方式参与他们最喜欢的IP世界是跨媒体叙事的核心,这有助于增强对IP的亲和力。在过去十年中,许多故事讲述者都在尝试各种互动视频。
早期的尝试是Telltale推出的《行尸走肉》——一款基于Robert Kirkman漫画系列的电影体验,玩家可以观看动画场景,但会在关键时刻通过对话和快速反应事件做出选择。这些选择——例如在僵尸袭击时决定拯救哪个角色——创造了故事更多的可能性,使每次游戏都具有个性化。
《行尸走肉》于2012年推出,获得了巨大成功——赢得了多项年度游戏奖,迄今为止销量超过2800万份。2017年,Netflix也进军互动视频领域——从《穿靴子的猫:童书历险记》等动画开始,最终推出广受好评的《黑镜:潘达斯奈基》,这是一部真人电影,观众可以决定一位年轻的程序员如何将一本奇幻小说改编成视频游戏。
《潘达斯奈基》是一部节日热门影片,吸引了大批狂热粉丝,他们制作了流程图来记录电影的所有可能结局。
然而,尽管《潘达斯奈基》和《行尸走肉》都获得了好评,但它们都面临着一个事关生存的根本性问题——人工创作无数分支故事需要耗费大量时间和成本。
随着Telltale扩展到多个项目,他们因「压榨与淘汰」的工作文化而声名狼藉,开发人员抱怨他们「频繁更换和烧钱」。故事质量受到影响——《行尸走肉》一开始在Metacritic上获得了89分的好评,而4年后,Telltale发布了他们最大的IP之一《蝙蝠侠》,但Metacritic上却只获得了令人失望的64分。
2018年,Telltale因未能找到可持续的商业模式而宣布破产。为了制作《潘达斯奈基》,剧组拍摄了250个视频片段,总长度超过5小时,以对应电影的5个结局。
据报道,其预算和制作时间是标准《黑镜》剧集的两倍,剧集制作人表示,该项目的复杂性相当于「同时制作4集」。最终在2024年,Netflix重组了整个互动特别节目部门,转而选择制作传统游戏。到目前为止,互动视频项目的内容成本与游戏时间成线性关系,这是无法避免的。然而,生成式人工智能模型的进步可能会让互动视频大放异彩。
2023年,潜在一致性模型(latent consistency models)和SDXL Turbo的发布,极大地提高了图像生成的速度和效率。现在,只需一步即可实现高分辨率渲染,而之前则需要20至30步,成本降低了30倍以上。AI生成视频的可行性因此大大增加。
今年早些时候,OpenAI发布了Sora,一个能够生成长达1分钟视频并保持视觉一致性的文本转视频模型,震惊了世界。不久之后,Luma AI发布了速度更快的视频模型Dream Machine,它能在120秒内生成约5秒长的视频,即120帧。
最近Luma分享说,他们在短短7周内就达到了1000万用户。上个月,Hedra Labs发布了Character-1,这是一个专注于角色的多模态视频模型,能在90秒内生成60秒的视频,展现富有表现力的人类情感和配音。
Runway最近推出了Gen-3 Turbo模型,它能在15秒内渲染10秒的视频片段。现在,有抱负的电影制作人可以根据文本提示或参考图像快速生成几分钟的720p高清视频,这些视频可以与关键帧结合,实现更高的精确度。
Runway还开发了一套编辑工具,为基于扩散模型生成的视频提供更精细的控制,包括帧内摄像机控制、帧插值和运动画笔。Luma和Hedra也将很快发布自己的创作者工具套件。尽管制作工作流程还处于早期阶段,但已有多位内容创作者使用这些工具进行故事创作。
Resemblance AI利用Luma、Midjourney和Eleven Labs的技术创作了令人惊叹的3分钟二战另类历史短片《Nexus 1945》。独立电影制作人Uncanny Harry与Hedra合作创作了一部赛博朋克短片。创作者们还制作了音乐视频、节目预告片、旅行视频博客,甚至快餐汉堡广告。自2022年以来,Runway每年都会举办一次AI电影节,选出10部在AI帮助下制作的短片。
当然,现在AI还有一些技术限制。比如在叙事质量和控制方面,提示生成的2分钟剪辑与专业团队制作的2小时故事片之间仍存在很大差距。很难从提示或图像中生成创作者想要的确切内容,即使是经验丰富的提示工程师通常也会丢弃大部分生成的内容。
AI视频创造者Abel Art表示,大约需要500个视频才能生成1分钟连贯的视频。图像一致性通常在连续视频一两分钟后开始失效,需要手动编辑——这也是今天大多数生成视频时间限制在约1分钟的原因。
对于大多数专业的好莱坞电影公司来说,扩散模型生成的视频将更多用于前期制作中,以直观展示场景或角色的外观,但不能替代现场工作。在后期制作中,AI也有机会用于音频或视觉效果处理,但与已经投入数十年的传统工作流程相比,AI创作工具套件仍处于早期阶段。
短期内,生成视频的最大机会之一在于推动互动视频和短片等新媒体格式的发展。互动视频已经细分为1至2分钟的短片段,根据玩家的选择进行,并且通常是动画或风格化的,允许使用分辨率较低的镜头。
更重要的是,通过扩散模型制作这些短片比Telltale/Bandersnatch更便宜——Abel Art估计Luma制作1分钟视频的成本为125美元,相当于租用电影镜头一天的费用。尽管如今生成的视频质量可能不稳定,但ReelShort和DramaBox等竖屏短片的流行已经证明,观众对低制作成本、分集短剧的需求是存在的。
ReelShort凭借数千部短小精悍的电视连续剧,如《禁忌的:阿尔法的爱》,下载量已超过3000万次,每月收入超过1000万美元,尽管有批评指出其摄影水平业余、剧本套路化。
交互式视频面临的最大技术难题在于实现足够快的帧生成速度以支持即时内容创作。目前,Dream Machine每秒约生成1帧。现代游戏主机发行的最低可接受标准是稳定在30帧每秒(FPS),而60 FPS则是黄金标准。借助PAB等技术的进步,某些视频类型的帧率可能提升至10至20 FPS,但仍未达到理想速度。
考虑到当前底层硬件和模型改进的速度,我们预计大约需要两年时间才能实现商业上可行的、完全由AI生成的交互式视频。目前,在研究领域已经取得了显著进展,微软研究院和OpenAI等领先机构正在致力于构建交互式视频的端到端基础模型。
微软的模型专注于以3D形式生成完全可玩的世界,这将是一个重要的里程碑,因为它将允许用户在由AI实时生成的环境中进行互动。与此同时,OpenAI展示了Sora模型的演示,这是一个能够零样本模拟《我的世界》(Minecraft)的突破性技术。Sora模型不仅能够使用基本策略控制游戏中的玩家,还能以高保真度渲染整个游戏世界及其动态变化。
在2024年2月,Google DeepMind推出了其创新的端到端交互式视频基础模型——Genie。Genie模型的核心创新在于其潜在动作模型,这一模型能够识别并理解视频帧对之间的隐含动作。
经过30万小时的平台视频训练,Genie学会了识别和模拟角色动作,例如角色如何跳过障碍物。这种能力使得Genie不仅能够理解动作的执行,还能够预测动作的发展。Genie的潜在动作模型与视频标记器相结合,共同输入到一个动态模型中。这个动态模型负责预测并生成下一帧的画面,将单独的帧串联起来,形成一个连贯的互动视频序列。
在应用层面,多个团队正致力于探索交互式视频体验的新形式。众多公司正在制作生成式电影或电视节目,这些作品在设计时充分考虑了现有模型的局限性。
此外,一些团队正在将视频元素整合进AI原生游戏引擎中,以创造更加沉浸式的体验。例如,Ilumine旗下的Latens正在开发一款名为「清醒梦模拟器」的产品,它允许用户在梦境中行走时实时生成画面,轻微的延迟效果增强了超现实体验的感觉。
开源社区Deforum的开发人员也在行动,他们利用沉浸式交互式视频技术来创建与现实世界相连接的装置。与此同时,Dynamic公司正在开发一款模拟引擎,该引擎使用全生成的视频,让用户能够以第一人称视角控制机器人,提供了一种全新的交互方式。
在电视和电影产业中,Fable Studio正在开发一项名为Showrunner的AI流媒体服务,它允许粉丝重新混编自己喜爱的节目版本。Fable的概念验证作品——《南方公园》的AI版本在首映时就获得了800万次观看,显示出这种新型互动娱乐形式的巨大潜力。
同时,Solo Twin和Uncanny Harry等前沿电影制作工作室专注于利用AI技术进行创作。Alterverse开发了一款受《龙与地下城》(D&D)启发的交互式视频RPG,剧情走向由社区成员共同决定。Late Night Labs是一家新兴的电影工作室,它将AI技术融入到创作过程中。Odyssey则正在构建一个由四个生成模型驱动的视觉叙事平台。
随着电影和游戏的界限日益模糊,AI原生游戏引擎和工具的出现为创作者提供了更多的控制权。Series AI开发的Rho Engine是一个端到端的AI游戏创作平台,该公司正与主要知识产权(IP)持有者合作开发原创游戏。此外,Rosebud AI、Astrocade和Videogame AI等公司推出的AI创作套件使得即使是编程或艺术领域的新手也能快速上手,制作出互动体验。
这些新的AI创作工具预示着叙事市场的开拓,它们将帮助新一代创作者通过提示工程、视觉草图绘制和语音输入的结合,将他们的创意和想象力转化为现实。
皮克斯之所以能够成为动画行业的旗舰企业,是因为它成功地利用了计算机和3D图形技术的性变革。如今,生成式人工智能领域正在掀起一场类似的技术浪潮,预示着新的创意和产业变革。
然而,皮克斯的成功不仅仅在于技术,还在于其原创动画电影《玩具总动员》以及由约翰·拉塞特领导的世界级故事讲述者团队的创造力。这提醒我们,技术需要与人类的创造力相结合,才能创作出真正引人入胜的故事。
我们认为,下一个皮克斯将是一个结合了世界一流的互动故事工作室和顶尖技术公司的双重身份的实体。随着人工智能研究的快速发展,创意团队必须与AI团队紧密合作,将叙事、游戏设计和技术创新融为一体。
面对这一挑战,新团队需要探索如何让人类讲述者与AI工具协同工作,以增强而非削弱人类的想象力。同时,还需要解决与AI生成创意作品相关的法律和伦理障碍,包括法律所有权、版权保护以及原始作者、艺术家和制作者的报酬问题。
尽管存在这些挑战,人们对新型互动体验的需求日益增长,这为创意产业带来了巨大的机遇。长远来看,下一个皮克斯的目标不仅是创造互动故事,更是创造整个虚拟世界,类似于HBO的《西部世界》中所展现的愿景。
借助AI的力量,未来我们可能会先构建一个完整的故事世界,然后再根据特定受众或情境生成各类媒体产品。这将标志着跨媒体叙事的终极演化,打破传统媒体形式之间的界限,创造出全新的故事世界。
正如皮克斯、迪士尼和漫威成功打造的令人难忘的世界一样,下一个互动式皮克斯的机遇在于利用生成式AI实现同样的目标,构建出前所未有的宇宙,为粉丝提供核心认同的一部分。