Harry 的个人网站・文章

Sora 2 is here

2025 年 9 月 30 日，OpenAI 发布了 sora2，这个假期有的玩儿了🤣。关于 sora2 的介绍，官方是这样介绍的：

Sora2 相当于视频的 GPT-3.5 时刻、更强物理一致性、擅长写实/电影/动漫风格。
通用的视频音频生成系统：Sora 2 同步生成对白、音效、环境声，属于音画一体生成。
cameo客串功能：可通过一次性自拍视频注册肖像与声音，把“自己”插入任意场景；在 iOS 的 Sora App 里也支持互相 remix对方的作品。
可以在他人发布的作品中进行二次创作

与 Sora对比

Sora 2 可以完成一些对于之前的视频生成模型来说极其困难，甚至在某些情况下完全不可能完成的事情，例如体操、桨板后空翻、三周半等复杂动作。
遵循更好的物理定律
能够生成音频

像导演那样设计 prompt

像 Deep Research 和 GPT-5 对文字创作带来的飞跃一样，Sora 2 也让「用文字拍片」真正成为可能。但想要让生成的视频画面精准地贴合你的构想，我们需要以一种标准化的视觉语言来撰写 prompt。这种视觉语言在电影领域被称为「镜头语言」。换句话说，我们应当像电影导演那样来设计 prompt，而镜头语言则是这种设计思维背后的底层逻辑。

下面这张图是我整理的「镜头语言」概念表，你可以把它作为一个速查工具，帮助你在撰写 prompt 时更直观、更专业地描述你脑海中的画面。

实例

prompt: 冬末清晨，天仍未亮｜校门口｜画幅比例：4:3｜电影级 sakuga（日式高质量作画），优美流畅的手绘，高清。远景：冬末的清晨，天仍未亮。雪花在漆黑的天空中飘落。一个 16 岁的男孩站在校门口的路灯下。积雪已堆到他的鞋底。他搓着双手，呼出的白气在黑暗里萦绕。特写：镜头从男孩背部（头到肩）向前，男孩的剪影处于失焦状态。在纵深空间中，一辆出租车驶向男孩。长焦镜头将车与男孩压得很近，车灯仿佛为男孩的轮廓镀上微微的闪光。远景：机位位于 180 度轴线的一侧。身着校服的 16 岁男孩站在画面右侧，靠近一盏路灯。一辆出租车自左侧入画，驶向男孩，在画面中央停下。女孩下车，停顿片刻，然后朝男孩走去。使用广角镜头夸张男孩与出租车之间的距离，让他们看起来比实际更远。中景：两人朝教学楼走去，前方的太阳缓缓升起。

视频链接：This is where we started - YouTube

GPT点评🤣

这段最打人的不是“相遇”，而是寒冷中的距离。请务必在 1A.1 和 4D.3 留够静止时间，让观众在冷色空气里“等一口气”。长焦与广角形成心理压缩 ↔ 空间拉远的对照，这是本段的灵魂。

prompt 模板

这是我与 GPT-5 thinking 整理的一份 prompt 模板，希望能对你有用：

[内景/外景]｜[场景/时段/天气]｜[构图/机位/摄影距离/镜头语言]｜[宽高比]｜[分辨率]｜风格参考：[导演/广告/类型/材质/电影风格]
--以下内容部分可以融入到描述中--
主体：[...]
场面调度：[布景/灯光/服装与化妆/动作/走位/表演]
影像:[色调范围/影片速度/透视/景深]（没有特殊需求则不填）
取景：[取景角度/取景高度]
运镜：[起手机位/运动方式/关键动作/结尾构图（注意与下一镜的连接）]｜[长镜头/强调空间/强调时间/一种母题]
光线与色彩：[光型/方向/强度/色调/LUT/颗粒/景深]
物理边界：[遵循...；禁止...]
音频：[对白/旁白文案；环境声；拟音；音乐入/停时码；音量配比]
拨杆：[运动强度X/景深Y/真实度Z/节奏M]

想用Sora2「拍」出脑中的电影？先来看看导演“黑话”

Sora 2 is here

与 Sora对比

像导演那样设计 prompt

实例

GPT点评🤣

prompt 模板