受 Zombie Scavengers 启发的原创动作图生视频流程

使用 AI 动作爆款的最好方式，是把它变成可控测试。先图像，再运动。这个顺序能减少场景漂移。

做角色设定表

设计原创幸存者，包含正面、侧面和近景。避免演员名、系列服装和复制 logo。设定表给视频模型一个合法且视觉明确的锚点。

建立地点画面板

把坍塌检查站、烟雾层、色彩规则和威胁剪影做成静态参考。如果静态世界很弱，视频阶段救不回来。

写一个镜头契约

镜头契约说明什么必须稳定：红雨衣、裂纹面罩、生锈路障、蓝灰烟雾。也说明什么可以运动：信使从左到右奔跑，前景碎片掠过。

测试并剪辑

生成短片段，只保留可用秒数，在身份或手部漂移前切掉。衡量重试成本，而不是只看最佳帧。

生成前先做前期资产

这套流程要变强，静态图像阶段必须承担真正的前期工作。进入视频模型前，至少准备四类资产：干净地点板、角色设定表、威胁剪影、最终关键帧。地点板定义空间和光线；角色表锁定服装、脸部方向和色彩强调；威胁剪影给背景动作一个形状，但不逼近任何受保护怪物；最终关键帧告诉剪辑这场戏要落在哪里。

这些资产会把提示词从猜测变成连续性管理。输出漂了，你可以回头看是哪一张板没有锁住，而不是无限重写一条巨长提示词。

镜头表和失败模式

镜头	目标	常见失败	修复方式
建立镜头	交代检查点和威胁方向	背景变成装饰	先减少动作，锁定色彩
运动镜头	让角色穿过画面	服装或脸漂移	加强参考帧，缩短时长
冲击镜头	用踉跄、撞击或擦身制造危险	手脚崩坏	提前切，用前景遮挡，简化接触
逃脱帧	给序列一个结束	最终姿势和前面无关	用最终关键帧做图生视频参考

要提示词阶梯，不要提示词大杂烩

有用的提示词阶梯，每一层只做一件事。第一层生成人物为空的世界，第二层引入角色但不加动作，第三层加入简单运动，第四层再加烟尘、火花或镜头震动。如果第四层失败，不要把整条提示词推倒重来，而是退回上一个稳定层，只增加一个变量。

这比一次塞满所有想法慢，但能产生更好的信息。你会知道模型真正能撑住什么。

记录重试预算

每次生成记录四项：尝试编号、保留秒数、失败原因、保留或删除。十次之后，记录通常会说真话。如果大多数失败是身份漂移，说明参考弱；如果是镜头混乱，说明镜头契约太模糊；如果是手部接触坏，说明动作对当前模型太复杂。

工作流能否规模化，取决于重试预算能否预测。爆款片段让人兴奋，但可预测的重试数学，才是团队能安排生产的东西。

GPT Image 角度：静态阶段应该承担更多重量

对图像先行工作流来说，静态阶段不是随手 mood board，而是所有权、角色身份、材料规则和镜头终点被决定的地方。强图像板会让后续视频测试更公平，因为每个模型收到的是同一组视觉证据，而不是只靠文字重新发明世界。

FAQ：什么时候说明工作流准备好了

一开始测几个镜头？ 先测三个。镜头太多会在你还不了解模型边界前制造太多失败面。

什么时候该放弃一条提示词？ 同一种失败在小幅调整后三次出现，就该停。此时通常不是提示词不够详细，而是镜头太复杂或参考太弱。

应该为下个项目保存什么？ 保存场景圣经、成功参考帧、带失败备注的废片，以及最终剪辑规则。好的 AI 视频流程会留下可复用的生产记忆。

最大错误是什么？ 让模型在一次生成里同时解决故事、设计、镜头、动作、身份、光线和剪辑。拆开任务。工作流会在开始时慢一点，在结尾时快很多。

最小可生产包

1500 字级工作流不能只有提示词。最小生产包应该包含场景圣经、四张视觉参考、镜头表、失败记录和剪辑计划。场景圣经定义世界；视觉参考定义模型应该保留什么；镜头表定义每次生成要完成什么；失败记录告诉你模型失败是因为提示词模糊、动作太复杂，还是参考太弱；剪辑计划阻止你试图拯救每一秒生成。

这个包足够小，一个创作者可以执行；也足够结构化，团队可以协作。它还能避免常见错误：把最终提示词当成唯一事实来源。最终提示词不是工作流，只是工作流里的一条指令。

四参考规则

进入运动前先做四类参考。第一，没人出现的地点板。第二，有正面和侧面的角色设定。第三，原创且法律安全的威胁剪影。第四，说明场景终点的最终关键帧。如果这四类参考互相矛盾，视频生成会放大矛盾。如果它们一致，模型会收到清楚得多的生产目标。

地点板回答尺度和光线；角色表回答身份和服装；威胁剪影回答危险，但不复制现有怪物；最终关键帧回答故事方向。它们合在一起，让视频模型专注于运动，而不是从零发明整部片。

可重复测试循环

用循环运行流程。第一轮测试没有复杂动作的世界；第二轮测试角色走动或转身；第三轮加入追逐、烟雾或碎片；第四轮测试剪辑。每轮之后记录失败。不要因为某一帧漂亮就前进，只在镜头完成了分配给它的任务时前进。

这种纪律会在后面节省时间。多数失败的 AI 视频项目，是因为创作者在稳定之前就增加复杂度。模型被要求同时解决设计、调度、镜头和动作。拆开问题一开始显慢，但最终剪辑会更快。

GPT Image 2 应该如何使用这套流程

对 GPT Image 2 来说，最强贡献在上游：角色设定、物件画面板、最终帧和视觉契约，让后续视频测试更公平。测试其他模型时使用同一个场景圣经和参考素材。问题不是哪个模型第一次更闪，而是谁在相同条件下给出更多可用秒数、更少身份破坏、更干净接触和更少修补。

像生产测试一样运行工作流

最终英文版补上的关键点是：工作流文章必须细到读者可以照着跑，而不是靠猜缺失步骤。创作者应该知道生成前准备什么，提示词写什么，每次输出后检查什么，以及什么时候该停。停止规则尤其重要。很多 AI 视频流程浪费时间，是因为同一种失败已经重复出现，创作者还继续刷新。一个实用规则是：如果同一种失败在小幅调整后三次出现，就不要再原地重试，应该换参考、简化镜头，或移除一个运动元素。

工作流还应该说明要保存什么。保存成功提示词，也保存失败提示词、参考帧、失败原因、尝试次数和保留秒数。这些不是文书工作，而是让下一个项目更便宜的生产记忆。只保存最终片段的创作者，下次还要重新摸索整套流程。

对 GPT Image 2 来说，这意味着静态图像阶段要提供足够结构，让后续视频测试少一点随机。项目角度应该作为测试方法出现，而不是硬广告。读者应该知道如何把同一份场景圣经、镜头契约和剪辑规则，转译到这个产品或模型环境中。即使读者仍在比较工具，文章也应该有用。

最终生产检查清单

在宣布工作流完成之前，检查五件事。角色在运动中仍然可识别；场景有一个清楚的镜头意图；主物件或服装细节至少撑过一次剪切；最终片段可以发布，而且不依赖名人脸或受保护世界；重试预算已经写下来。如果这五项通过，工作流就不只是提示词实验，而是可重复生产模式。

最好的 AI 视频工作流不是声音最大的，而是能在减少歧义的同时保持创作意图可见。它一次告诉模型的东西更少，但结构更好。

结论

图生视频最好用的前提，是图像阶段真的承担前期制作。静帧不是装饰，而是护栏。

受 Zombie Scavengers 启发的原创动作图生视频流程

目录