
在 AI 创作全面爆发的今天,“图生视频”几乎成了每个内容创作者的必修课。
无论是做短视频带货、知识科普,还是打造个人 IP,大家都指望通过 AI 快速批量产出高质量视频。但现实往往很骨感:你折腾了半天,生成的画面要么肢体扭曲,要么运镜乱飞,要么就是人物眨眼像抽搐。
更扎心的是,你明明照着网上的教程写了提示词,为什么别人的视频是“电影大片”,你的却是“动态 PPT”?
别慌,这不是你的审美问题,也不是工具不行,而是你缺了一套系统化的提示词工程逻辑。
今天,我们不讲虚的,直接拆解一套经过实战验证的万字级 AI 文生图 & 图生视频提示词方法论。从底层的“导演思维”到可复制的“万能公式”,帮你彻底告别“抽卡失败”,实现从“随机生成”到“精准控制”的跃迁。

一、 为什么 90% 的人写不好 AI 视频提示词?
在深入干货之前,我们先要纠偏。大多数人写提示词,本质上是在**“堆砌形容词”**。
❌ 错误示范:“一个漂亮的女孩,在森林里,很开心,高清,8K。”
这种写法的问题在于:它只有“静态元素”,没有“动态逻辑”。
AI 视频模型(如 Runway Gen-3, Kling, Sora)与生图模型最大的区别,在于它需要理解时间维度上的连续性。如果你只告诉它“有什么”,没告诉它“怎么动”,AI 就会开始“瞎猜”,结果自然是崩坏。
✅ 正确的提示词思维,应该是“导演思维”:你需要像一个真正的导演那样,去调度镜头、控制光影、设计动作、规划节奏。

二、 核心拆解:AI 视频创作的“学术级”公式
根据对头部 AI 创作者工作流的深度拆解,我们总结出了一套“三层递进式”创作公式。你可以直接保存,每次写提示词时按这个框架填空。
1. 基础版:新手保底公式
🎥 公式:[摄像机移动] + [建立场景] + [更多细节]
- 适用场景
- 示例:
无人机缓慢向前推进,穿过一片晨雾弥漫的松树林,阳光透过树叶洒下丁达尔效应,4K 高清,写实风格。
2. 进阶版:专业创作公式
🎬 公式:[镜头语言] + [光影] + [主体描述] + [主体运动] + [场景描述] + [情绪/氛围] + [分镜结构]
- 适用场景:有明确主角、需要表现特定动作或情绪的剧情类视频。
- 拆解逻辑
- 镜头语言
- 主体运动:不是“站着”,而是“缓缓转身,抬手捋发,眼神看向镜头”。
- 分镜结构
3. 专家版:学术级控制框架(Stable Cinemetrics)
🎓 公式:[空间布局 Setup] + [时间动态 Event] + [光影控制 Lighting] + [镜头参数 Camera]
这是目前国际顶尖 AI 艺术家正在使用的框架,强调语义一致性和视觉质量的平衡。
- Setup(空间):明确主体与背景的相对位置,避免 AI 混淆前后景。
- Event(事件):用动词驱动画面,如“爆炸”、“奔跑”、“融化”,而非静态名词。
- Lighting(光影):指定光源方向(如“伦勃朗光”、“侧逆光”),增强立体感。
- Camera(镜头):指定焦距(如“85mm 人像镜头”)、光圈(如“f/1.8 浅景深”)

三、 四大核心维度:如何写出“电影感”提示词?
有了公式,还需要填充高质量的“素材”。以下是四个决定视频质感的核心维度,你可以直接从中挑选词汇组合。
1. 风格限定:拒绝“塑料感”
AI 视频最容易出现的毛病就是“油腻”或“塑料感”。通过精准的风格限定,可以瞬间提升档次。
- 艺术风格:写实主义、超现实主义、赛博朋克、古风写意、吉卜力动漫、新海诚风格、莫奈印象派。
- 商业风格
- 小众高级感:粘土动画(Claymation)、冰雕质感、蒸汽波、暗黑哥特、梵高后印象派。
- 💡 技巧:使用权重语法强化风格,如
(电影级质感:1.2)、(无噪点:1.1)。数值越高,AI 越重视该元素。
2. 镜头语言:让画面“活”起来
镜头是视频的舌头。不同的运镜方式,传达的情绪截然不同。
- 推镜头(Push In):逐渐靠近主体,突出情感变化或细节。例:镜头缓慢推向女孩含泪的眼睛。
- 拉镜头(Pull Out):逐渐远离,展示环境全貌,营造孤独或宏大感。例:镜头从侦探的背影拉开,展现整个雨夜霓虹街道。
- 摇镜头(Pan)
- 跟随镜头(Follow):相机与主体同速运动,增强代入感。例:第一人称视角跟随跑酷者在屋顶跳跃。
- 航拍/无人机(Drone Shot)
3. 主体动态:细节决定成败
不要只写“一个人在走路”,要写出动作的连贯性和物理反馈。
- 动态描述公式
- 案例对比
- ✅ 好:女孩踮起脚尖旋转,裙摆随风飘动,抬手撩起耳边的碎发,最后弯腰谢幕,眼神温柔地看向观众。
- 物理细节:加入“头发飘动”、“衣服褶皱变化”、“雨水打湿肩膀”、“呼吸起伏”等细节,能极大增强真实感。
4. 光影与色调:营造氛围的神器
光影是情绪的催化剂。
- 自然光:朝阳(希望)、落日(温暖/伤感)、柔光(唯美)、丁达尔效应(神圣/神秘)。
- 人造光:霓虹灯(赛博/迷幻)、聚光灯(舞台/聚焦)、台灯(温馨/私密)。
- 经典布光:伦勃朗光(立体/戏剧性)、蝴蝶光(时尚/精致)、侧逆光(轮廓/剪影)。
- 色调建议

四、 避坑指南:提示词优化的三个“黄金原则”
即使掌握了公式,很多人还是会翻车。以下是三个经过无数“废片”总结出的优化原则:
1. 强调关键信息(重复即正义)
AI 有时会“耳背”。在提示词的不同部分重复关键词,能显著提高一致性。
例:如果你想让镜头快速移动,不仅要写“Fast camera movement”,还要在细节里写“High speed”, “Rapid motion”。
2. 聚焦“出现”的内容(正向描述)
尽量描述你想要什么,而不是你不想要什么。
❌ 坏:天空中没有云。✅ 好:晴朗的蓝天,万里无云。
如果必须排除某些元素,请使用专门的负面提示词(Negative Prompt)区域(如果工具支持),如:distorted, blurry, extra limbs, bad anatomy。
3. 适配平台特性(因地制宜)
不同的发布平台,对视频的前 3 秒要求不同:
- 抖音/快手:前 3 秒必须有强视觉冲击或悬念。提示词中要强调“快速运镜”、“剧烈动作”或“反差色彩”。
- 小红书:注重美感和利他性。提示词中多加入“柔和光影”、“精致细节”、“治愈氛围”。
- 视频号/B 站:适合长叙事。提示词要注重“分镜连贯性”和“逻辑清晰”。
五、 实操案例:从 0 到 1 生成一支爆款视频
假设我们要制作一支“古风女子雨中抚琴”的视频,我们如何应用上述方法论?
Step 1: 确定核心冲突与情绪
Step 2: 组合提示词(专家版公式)
- [镜头语言]:缓慢的推镜头,从全景推到手指特写,再拉到面部近景。
- [光影]:阴雨天的柔光,屋檐滴下的雨水反射微光,丁达尔效应穿透雨幕。
- [主体]:身穿月白刺绣广袖裙的古风女子,玉簪束发,肌肤通透,神情温婉。
- [主体运动]:手指在古琴上轻轻拨动,裙摆随微风轻微摆动,偶尔抬头望向雨幕,眼神清澈。
- [场景]:古风庭院,青石板路,远处有朦胧的山峦和竹林,雨丝细密。
- [风格]:8K UHD,极致细节,电影级质感,中国水墨画意境,无噪点。
Step 3: 最终提示词(可直接复制)
Cinematic slow push-in shot. A graceful ancient Chinese woman in a moon-white embroidered dress playing the guqin in a rainy courtyard. Soft overcast lighting, raindrops falling from eaves, Tyndall effect through the rain mist. Close-up of her fingers plucking the strings, then pulling back to her serene face as she looks up at the rain. Her hairpin holds her hair neatly, skin texture is realistic. Background features misty mountains and bamboo forests. 8K UHD, highly detailed, movie-quality, Chinese ink painting aesthetic, no noise, gentle and melancholic atmosphere. --ar 16:9 --style raw

六、 结语:AI 只是笔,你才是导演
技术迭代的速度永远快于我们学习的速度。今天流行的工具,明天可能就被颠覆。
但“导演思维”永远不会过时。
当你不再把 AI 当作一个“随机抽奖机”,而是把它当作一个“执行力超强但需要明确指令的摄影师”时,你的创作效率和质量才会发生质的飞跃。
这份万字提示词模板,不仅仅是一套词汇表,更是一套思考框架。建议你收藏后,在实际创作中反复套用、微调,直到它内化为你的本能。

最后,给大家一个福利(即梦提示词手册合集):
通过网盘分享的文件链接: https://pan.baidu.com/s/1GRqM2RAybwX1LitNCZz3Gg?pwd=ftas 提取码: ftas
作者:東木 | 专注 AI 漫剧与短剧行业深度拆解如果你觉得这篇文章有用,欢迎点赞、在看、转发,让更多创作者少走弯路。