Sora横空出世,AI还会复刻去年行情吗?

2024-02-19     网友

这个年还没有过完,人工智能就再次传出大消息。

当地时间2月15日,OpenAI对外发布AI生成式视频大模型Sora,该模型可依据文本生成长达一分钟的视频,同时保持视觉品质、理解并执行用户指令。

虽然对模型架构、数据规模、训练成本等相关的细节只字未提,但OpenAI 在技术报告中赫然指出, Sora 这类视频生成模型是「世界的模拟器」。

Sora能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。

例如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。

Sora的炸裂效果,传导至“Sora指数”的表现上。2月19日,wind“Sora指数”大涨11.36%。想必投资者还记得,去年ChatGPT推出后AI相关板块的强悍表现。

今年,会不会复刻去年行情?

Sora目前可以通过文本或图片生成长达60s的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI视频应用生成时长,在视频效果及稳定性等指标上表现也更加优异。

炸裂的效果

Sora结合了扩散模型(DALL-E3)和转化器架构(ChatGPT),实现模型可以像处理文本一样处理图像帧的时间,一次性生成每一帧图像。通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。

Sora 采用了类似于 GPT 模型的变压器架构(Transformer Architecture),并采用 DALL-E 3(OpenAI旗下文生图模型)中的重标记技术(Recaptioning Technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。

Sora模型文生视频震撼之处在于,时长长达一分钟,且每一帧的画质、光影等在变化中保持高质量;除实现文本指令生产视频外,也可以将现有静态图片转成视频,可动画化,也可以进行扩帧和补帧。

OpenAI官方展示视频涵盖人物特写、动物特写和航拍等场景,动作表现较为流畅,镜面反射效果可圈可点上述情况证明Sora可生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在指令中提出的要求,还能在一定程度上了解这些物体在物理世界中的存在方式。

下面通过几个视频来看下Sora文生视频的效果,堪称“炸裂”。

AI想象中的龙年春节,红旗招展人山人海

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上

可以看到,Sora 能够生成具有多个角色、特定类型运动等复杂场景,并能做到对主体和背景的细节进行准确刻画。模型不仅了解用户提出的要求,还了解用户要求在物理世界中存在与运行的方式。

目前,Sora 共涵盖 3 种视频生成方式:

文字生成视频:输入自然语言,最大生成 1 分钟左右的视频内容;

图片生成视频:用户提供静态图片与提示词,Sora 能够将其扩展为视频;

视频生成视频:用户提供一段原始视频与提示词,Sora 能实现更换视频背景等功能。

多种视频能力

Sora 在支持多种视频生成方式之外,还具备其他多种视频能力。

1)扩展所生成的视频。Sora 能够在时间上向前或向后扩展视频。以往生成视频多为顺时间生成未来内容,而 Sora 支持逆时间扩展视频内容,但视频结尾保持一致。

2)视频拼接。Sora 可以在两个输入视频之间逐渐进行帧插值,从而在具有完全不同主题和场景构成的视频之间进行无缝过渡。

3)保持 3D 一致性。Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

4)保持远程相干性和物体持久性。Sora 经常能够有效地对短距离和长距离依赖关系进行建模。例如,即使视频主体(人、动物和物体)被遮挡或离开画面,我们的模型也能保持主体的存在。

5)物理交互反馈。Sora 有时可以模拟一些影响物体状态的简单动作。

6)模拟人造数字世界。Sora 还能够模拟人造的虚拟世界。比如在 Minecraft(我的世界)游戏中,Sora可以使用相关模块控制Minecraft中的玩家,同时高清地呈现世界及其动态。

相对于Runway Gen2、Pika等文生视频模型,Sora取得了重大突破。上限1分钟的视频长度,传统的文生视频工具支持的视频时长上限仅为十多秒,而Sora则支持最高1分钟的视频长度,并能够自定义分辨率和尺寸;单视频多角度运镜能力,人物和背景元素能够随着相机的移动而移动,一镜到底的同时维持主人物和背景的一致性。

当然,Sora目前还有很多的不足和局限性。

比如Sora 可能难以准确模拟在某些复杂场景中物体的物理特性,并且可能无法理解某些特定的场景物体的因果关系。或可能混淆用户生成指令的空间细节,例如,左右混淆,或可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。对于部分吃食物、在跑步机上跑步等场景,Sora 并不总能生成正确的主体状态变化。

AGI(通用人工智能)的里程碑

画家在画板中留下墨迹、吃汉堡的视频片段显示,Sora能准确生成画笔与墨迹的对应关系,以及咬下汉堡并留下咬痕的画面,这在一定程度上展示了其从数据中所学习到的对于世界的理解。

“模型生成未来视频数据的能力表面上是图像信息的测算,而实际上是为了构建准确的场景,隐含着对于世界运行规律的理解。”中信证券称。

周鸿祎也说,Sora最让人惊叹的不仅是表象上做图的真实性,背后是实现了对现实世界的理解和模拟。

OpenAI 表示,“我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”

鉴于Sora达到理解世界运动与物理运动的水平,已经初具模拟真实世界与物理运动能力,这将是人类迈向AGI的关键一步。

因此,作为未来模拟现实世界的模型的基础,Sora 的模拟能力将是实现 AGI(Artificial General Intelligence)的重要里程碑。

也有分析人士认为,Sora 在视频赛道重现 ChatGPT 式的成功,很可能是得力于其把虚拟世界的模型(LLM)落地到具象化的物理世界模型(视频生成)。

商业化潜力

算力和网络的升级需求将会加强、物理世界模拟或将显著提升AI认知世界能力,为通用式人工智能发展奠定扎实基础以及视频生成与3D视觉的结合有望打开AI应用想象空间,会是人工智能产业未来可能的发展趋势。

相较于文生文、文生图等形式,AI视频在影视、短视频、游戏、营销、教育等落地场景更丰富且深入,例如在游戏领域文生文/图仅能辅助基本剧情、对话和原画创作,而文生视频则可以直接参与3D内容资产的生成,同时由于视频内容制作本身成本高,用户对于价格敏感度更低,因此也更容易实现大规模的商业化。

Sora相比此前其他的文生视频,已经跨越到使用生产力工具,1分钟长度有望大规模应用到短视频领域,扩展视频的能力也有望制作长视频,或将带来新一轮的内容创作产业革命。

参考

“视频模型 Sora 发布,或为 AGI 重要里程碑”,华创证券

“视频生成模型 Sora 发布,AGI 创新潮涌”,东北证券

“SORA:视频生成新范式,世界模型新进展”,中信证券

“为什么说 Sora 是世界的模拟器?”,飞哥说AI

“Openai发布文生视频模型Sora,AI视频商用不再遥远”,德邦证券研究所

Sora横空出世,AI还会复刻去年行情吗?
946
450
165
分享
收藏

本文仅代表作者本人观点,与金汇网无关。
金汇网对文中陈述、观点判断保持中立,不对所包含内容的准确性、
可靠性或完整性提供任何明示或暗示的保证。投资者据此操作,风险自担。

信息提示

确认要删除这条内容吗?