Sora 2 is here

2025 年 9 月 30 日,OpenAI 发布了 sora2,这个假期有的玩儿了🤣。关于 sora2 的介绍,官方是这样介绍的:
- Sora2 相当于视频的 GPT-3.5 时刻、更强物理一致性、擅长写实/电影/动漫风格。
- 通用的视频音频生成系统:Sora 2 同步生成对白、音效、环境声,属于音画一体生成。
- cameo客串功能:可通过一次性自拍视频注册肖像与声音,把“自己”插入任意场景;在 iOS 的 Sora App 里也支持互相 remix对方的作品。
- 可以在他人发布的作品中进行二次创作
与 Sora对比
- Sora 2 可以完成一些对于之前的视频生成模型来说极其困难,甚至在某些情况下完全不可能完成的事情,例如体操、桨板后空翻、三周半等复杂动作。
- 遵循更好的物理定律
- 能够生成音频
像导演那样设计 prompt
像 Deep Research 和 GPT-5 对文字创作带来的飞跃一样,Sora 2 也让「用文字拍片」真正成为可能。但想要让生成的视频画面精准地贴合你的构想,我们需要以一种标准化的视觉语言来撰写 prompt。这种视觉语言在电影领域被称为「镜头语言」。换句话说,我们应当像电影导演那样来设计 prompt,而镜头语言则是这种设计思维背后的底层逻辑。
下面这张图是我整理的「镜头语言」概念表,你可以把它作为一个速查工具,帮助你在撰写 prompt 时更直观、更专业地描述你脑海中的画面。

实例
prompt: 冬末清晨,天仍未亮|校门口|画幅比例:4:3|电影级 sakuga(日式高质量作画),优美流畅的手绘,高清。 远景:冬末的清晨,天仍未亮。雪花在漆黑的天空中飘落。一个 16 岁的男孩站在校门口的路灯下。积雪已堆到他的鞋底。他搓着双手,呼出的白气在黑暗里萦绕。 特写:镜头从男孩背部(头到肩)向前,男孩的剪影处于失焦状态。在纵深空间中,一辆出租车驶向男孩。长焦镜头将车与男孩压得很近,车灯仿佛为男孩的轮廓镀上微微的闪光。 远景:机位位于 180 度轴线的一侧。身着校服的 16 岁男孩站在画面右侧,靠近一盏路灯。一辆出租车自左侧入画,驶向男孩,在画面中央停下。女孩下车,停顿片刻,然后朝男孩走去。使用广角镜头夸张男孩与出租车之间的距离,让他们看起来比实际更远。 中景:两人朝教学楼走去,前方的太阳缓缓升起。
视频链接:This is where we started - YouTube
GPT点评🤣
这段最打人的不是“相遇”,而是寒冷中的距离。请务必在 1A.1 和 4D.3 留够静止时间,让观众在冷色空气里“等一口气”。长焦与广角形成心理压缩 ↔ 空间拉远的对照,这是本段的灵魂。
prompt 模板
这是我与 GPT-5 thinking 整理的一份 prompt 模板,希望能对你有用:
[内景/外景]|[场景/时段/天气]|[构图/机位/摄影距离/镜头语言]|[宽高比]|[分辨率]|风格参考:[导演/广告/类型/材质/电影风格]
--以下内容部分可以融入到描述中--
主体:[...]
场面调度:[布景/灯光/服装与化妆/动作/走位/表演]
影像:[色调范围/影片速度/透视/景深](没有特殊需求则不填)
取景:[取景角度/取景高度]
运镜:[起手机位/运动方式/关键动作/结尾构图(注意与下一镜的连接)]|[长镜头/强调空间/强调时间/一种母题]
光线与色彩:[光型/方向/强度/色调/LUT/颗粒/景深]
物理边界:[遵循...;禁止...]
音频:[对白/旁白文案;环境声;拟音;音乐入/停时码;音量配比]
拨杆:[运动强度X/景深Y/真实度Z/节奏M]