效果非常惊艳!OpenAI发布文生视频模型“Sora”

2024-02-16     网友

北京时间凌晨,OpenAI 发布了一个AI模型——Sora,可以根据文本指令创建现实且富有想象力的视频。此前,Runway、Pika、G oogle和 Meta都有涉足此领域,如今OpenAI终于也来了。

看了下官网给出的视频(非常多),超厉害,超逼真,超级王炸。我们先来欣赏几个视频,然后再聊聊这个Sora。这里不支持发视频,可以去我的号“林不再的选股思路”上观看。

看完上面,大概能感受到Sora的厉害之处,那到底厉害在哪里?

1、能生成60S视频,远超之前10S。对视频数据进行生成建模,方法有循环网络、生成对抗网络、自回归变压器和扩散模型等。他们通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 能生成不同时长、不同长宽比和不同分辨率的视频,还有图像。

2、超强自然语言理解能力,能够准确理解提示,并生成引人注目的符号,来表达充满活力的情感;

3、高度模拟现实世界交互;

4、在单个生成的视频中创建多个镜头、多个角色、复杂场景,准确地保留角色和视觉风格。

当然,Sora也有一些问题,难以准确模拟复杂场景的物理原理;可能无法理解因果关系的具体实例;可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件。

我们看一个例子。这个视频的提示语是:

可以看到,视频还是很生动的,但发现了没,蜡烛并没有随着吹气而动,可见Sora还是没有处理在模拟对象和多个角色之间的复杂交互。

二、Sora技术原理

OpenAI 官网介绍了Sora原理原理,包括给出了一份技术报告,这部分比较专业,挑重点简单说说。

大意是说,Sora 是一种扩散模型。

所谓扩散模型,专业解释是这样的,“扩散模型或概率扩散模型是使用变分推理训练的参数化马尔可夫链,以在有限时间后生成与数据匹配的样本”。简单理解,扩散模型可以生成与其训练数据相似的数据,比如模型对猫进行训练,那可以生成逼真的猫图。

另外,Sora 与 GPT 模型类似,也是采用了transformer架构 ,这是一种注意力机制(Self-Attention),比较复杂不展开写了。

如果想了解更多Sora 的技术原因,可以看这里。https://openai.com/research/video-generation-models-as-world-simulators

三、利好哪好板块?

Sora这种效果是非常惊艳的,将会颠覆现有的游戏、影视和传媒行业。

试想一下,中文在线目前累积数字内容资源超 550 万种,如果采用Sora创作,生成视频变现,这是多大的一个体量?而成本又只有多少?

反正,这个消息非常猛,说OpenAI 再一次改变世界也不为过。下一个爆款AI应用将会在这里面诞生。关注节后A股游戏、影视和传媒行业板块吧。

感谢阅读,祝好!找资料、写文辛苦,如觉有用请点赞转发,感谢!

风险提示:市场本号涉及题材或个股仅代表个人观点,仅供参考,不构成任何投资建议,股市有风险,投资需谨慎,祝各位老师投资顺利。

效果非常惊艳!OpenAI发布文生视频模型“Sora”
386
877
392
分享
收藏

本文仅代表作者本人观点,与金汇网无关。
金汇网对文中陈述、观点判断保持中立,不对所包含内容的准确性、
可靠性或完整性提供任何明示或暗示的保证。投资者据此操作,风险自担。

信息提示

确认要删除这条内容吗?