效果非常惊艳！OpenAI发布文生视频模型“Sora”

2024-02-16 网友

北京时间凌晨，OpenAI 发布了一个AI模型——Sora，可以根据文本指令创建现实且富有想象力的视频。此前，Runway、Pika、G oogle和 Meta都有涉足此领域，如今OpenAI终于也来了。

看了下官网给出的视频（非常多），超厉害，超逼真，超级王炸。我们先来欣赏几个视频，然后再聊聊这个Sora。这里不支持发视频，可以去我的号“林不再的选股思路”上观看。

看完上面，大概能感受到Sora的厉害之处，那到底厉害在哪里？

1、能生成60S视频，远超之前10S。对视频数据进行生成建模，方法有循环网络、生成对抗网络、自回归变压器和扩散模型等。他们通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 能生成不同时长、不同长宽比和不同分辨率的视频，还有图像。

2、超强自然语言理解能力，能够准确理解提示，并生成引人注目的符号，来表达充满活力的情感；

3、高度模拟现实世界交互；

4、在单个生成的视频中创建多个镜头、多个角色、复杂场景，准确地保留角色和视觉风格。

当然，Sora也有一些问题，难以准确模拟复杂场景的物理原理；可能无法理解因果关系的具体实例；可能混淆提示的空间细节；可能难以精确描述随着时间推移发生的事件。

我们看一个例子。这个视频的提示语是：

可以看到，视频还是很生动的，但发现了没，蜡烛并没有随着吹气而动，可见Sora还是没有处理在模拟对象和多个角色之间的复杂交互。

二、Sora技术原理

OpenAI 官网介绍了Sora原理原理，包括给出了一份技术报告，这部分比较专业，挑重点简单说说。

大意是说，Sora 是一种扩散模型。

所谓扩散模型，专业解释是这样的，“扩散模型或概率扩散模型是使用变分推理训练的参数化马尔可夫链，以在有限时间后生成与数据匹配的样本”。简单理解，扩散模型可以生成与其训练数据相似的数据，比如模型对猫进行训练，那可以生成逼真的猫图。

另外，Sora 与 GPT 模型类似，也是采用了transformer架构，这是一种注意力机制（Self-Attention），比较复杂不展开写了。

如果想了解更多Sora 的技术原因，可以看这里。https://openai.com/research/video-generation-models-as-world-simulators

三、利好哪好板块？

Sora这种效果是非常惊艳的，将会颠覆现有的游戏、影视和传媒行业。

试想一下，中文在线目前累积数字内容资源超 550 万种，如果采用Sora创作，生成视频变现，这是多大的一个体量？而成本又只有多少？

反正，这个消息非常猛，说OpenAI 再一次改变世界也不为过。下一个爆款AI应用将会在这里面诞生。关注节后A股游戏、影视和传媒行业板块吧。

感谢阅读，祝好！找资料、写文辛苦，如觉有用请点赞转发，感谢！

风险提示：市场本号涉及题材或个股仅代表个人观点，仅供参考，不构成任何投资建议，股市有风险，投资需谨慎，祝各位老师投资顺利。

效果非常惊艳！OpenAI发布文生视频模型“Sora”

181

367

889

本文仅代表作者本人观点，与金汇网无关。
金汇网对文中陈述、观点判断保持中立，不对所包含内容的准确性、
可靠性或完整性提供任何明示或暗示的保证。投资者据此操作，风险自担。

热门课程更多>