AI视频脚本创作指南(v3.0 重定义版)

核心理念:我们不叫"口播稿"了——因为不出镜。我们用 Hyperframes 这类插件生成视频。本指南产出的内容就是给AI看的"视频蓝图"。
唯一目标:让AI能根据脚本,自动生成画面、字幕、配音、动画、转场——像导演给摄影师下指令一样清晰。


一、重定义:从"口播稿"到"AI视频脚本"

1.1 为什么改?

老模式(口播稿)新模式(AI视频脚本)
假设有真人出镜假设用插件生成视频
文案为主,画面为辅文案+画面同等重要,甚至画面更重要
只考虑"怎么写"还要考虑"AI怎么理解、怎么生成"
时长受真人出镜限制时长无限制,内容讲透为止
传播靠人传播靠内容+平台算法

1.2 AI视频脚本的核心要求(只有两点)

第1点:内容要足够详尽、通俗易懂

  • 给你一个话题、知识点或概念,要把它解释得足够清楚——尽量让"小白"也能听懂
  • 时间上没有限制,可以旁征博引,把背后的原理、应用、相关概念都讲透
  • 参考知识类爆款视频的做法:从一个点发散出去,营造出"能讲很多"的感觉
  • 不要假设用户有背景知识,每个概念都要讲透

第2点:格式要让AI/插件能看懂

  • 每个段落必须有明确的时间码(如 [0:00-0:30])
  • 每个段落必须标注画面描述(AI需要知道生成什么画面)
  • 必须分离旁白(配音文本)和字幕(屏幕文字)
  • 必须标注视觉指令(动画、转场、字体、颜色、音效)
  • 概念出场时,必须标注视觉对应物(图标、动画、示意图)

1.3 AI能看懂的标准格式

1
2
3
4
5
6
7
8
[时间码:0:00-0:30]
[画面类型:开场/图标飞入/场景还原/对比/动画拆解]
[视觉指令:淡入/闪白/滑动/缩放/旋转]
[旁白]:你输入的话,AI会把它拆成一个个小块……
[字幕]:Token:AI的字数计数器
[音效]:轻微"叮"一声
[画面描述]:画面正中一个输入框,文字"帮我写周报"被切成6个小方块,每个方块高亮闪烁
[视觉对应物]:Token图标(小方块组合)从下方飞入

判断标准:如果把这个脚本直接丢给AI,AI能生成出70%以上的画面——脚本就是合格的。


二、内容要求:讲透,不是讲完

2.1 知识类爆款视频的共性

调研抖音、B站、视频号、YouTube的知识类爆款后,发现它们都有这些特征:

特征具体做法代表案例
从一个点发散讲一个概念,顺带引出5个相关概念"何同学"讲5G,顺带讲通信史
原理+应用+案例不只讲"是什么",还讲"为什么"和"怎么用""硬核拆解"讲手机芯片
旁征博引用历史、经济、生活、科学多视角解释"听风的蚕"讲国际关系
故事化把知识点包装成"一个普通人的经历""半佛仙人"讲商业
节奏感每30秒-1分钟一个小高潮,信息密度高"米三汉"讲红楼梦
视觉化抽象概念必配动画/图标/示意图所有知识区头部账号

本指南建议

  • 单期视频 3-15 分钟(按内容量决定,不设上限)
  • 如果概念多到 15 分钟讲不完,拆成多期,不要硬塞
  • 内容密度:每1-2分钟必须有一个"信息增量"(新概念、新案例、新视角)
  • 完播率 > 30% 算合格,> 50% 算优秀

2.2 内容结构:从"一点"到"一片"

知识类爆款不是"讲一个概念",而是以这个概念的起点,发散出一个知识网络

1
2
3
4
5
6
7
[核心概念]:Token(AI的字数计数器)
├→ [原理层]:为什么AI要拆成小块?→ 讲Tokenization、编码、神经网络输入
├→ [应用层]:Token怎么计费?→ 讲不同模型的Token定价、怎么省Token
├→ [关联层]:Token和什么有关?→ 讲上下文窗口、输出Token限制、流式输出
├→ [历史层]:Token怎么来的?→ 讲从字符到词到子词的发展历程
├→ [对比层]:Token和什么像?→ 讲打印店按页收费、手机按流量计费
└→ [实战层]:怎么用好Token?→ 讲提示词压缩、Token监控工具

判断标准:一个概念能发散出5-6个相关维度,用户看完会觉得"学到了不止一个东西"。

2.3 内容深度:3岁小孩能听懂(夸张说法)

  • 每个概念必须回答:是什么、为什么、怎么用
  • 每个原理必须配生活类比(不是学术类比)
  • 每个案例必须具体、可复现(不是泛泛而谈)
  • 每个结论必须有因果链条(不是跳跃式推理)

禁止

  • ❌ "众所周知,在当前的技术背景下……"(正确的废话)
  • ❌ "这个概念很重要,大家要记住"(说教感)
  • ❌ "简单来说,就是……"(说了等于没说)
  • ❌ 只给定义不给例子

三、场景与故事:一个主角,一条主线

3.1 为什么必须"一个场景用到底"

AI生成视频时,场景切换越少,画面越连贯。如果脚本里场景跳来跳去,AI生成的画面会很碎。

新规则

整篇脚本只允许有1个完整场景,所有概念都在这个场景里自然长出来。
这个场景必须是大多数用户都接触过的(找工作、租房、写周报、点外卖、去医院……)。
如果一个场景装不下所有概念,拆成多期,不要硬塞。

3.2 场景库:8大经典场景

按"用户接触频率"从高到低排:

场景痛点可装概念数适合主题
找工作/投简历/面试简历没回复、面试被刷、不会谈薪10-15个AI基础+进阶+高级全栈
租房/搬家/找室友假房源、合同看不懂、被坑8-12个信息识别+工具类
写周报/写汇报/写复盘写得像流水账、领导说没重点6-8个写作+结构化思维
点外卖/购物/比价不知道选哪个、怕被坑6-8个决策+推荐算法
去医院/看病/挂号不会挂号、不懂医生的话6-10个健康+信息识别
第一次当管理者不会开会、不会分配任务10-12个协作+管理+软技能
副业/接私活/跳槽谈薪不知道怎么报价8-10个商业+谈判
第一次用AI干活不知道怎么用、回答太泛8-12个AI工具入门

3.3 角色代入:用"你"还是"我"

推荐用"你"+"我"混合

  • 场景设定:用"你"——"假设你最近准备找工作"(让用户代入)
  • 情绪共鸣:用"我"——"我当时也是这样"(让用户觉得是过来人讲)
  • 概念定义:用"它"——"它叫提示词工程"(客观命名)

四、脚本结构:五段式推进

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
[开场 3-5秒] 钩子 + 场景设定
└→ 悬念钩/反常识钩/数字钩/冲突钩/痛点钩
└→ 共情瞬间("说实话,我也曾是……")
└→ 场景设定("假设你最近准备找工作")

[背景设定 10-15秒] 主角+冲突
└→ 具体数字+具体取舍=可代入

[第一波推进 2-3分钟] 主线任务启动
└→ 引入2-3个基础概念(是什么)

[第一次冲突 30秒] 主线任务受挫 + 来龙去脉
└→ "但问题来了——"
└→ 来龙去脉(WHY):解释为什么受挫

[第二波推进 2-3分钟] 解决问题 + 引入进阶概念
└→ 引入2-3个进阶概念(为什么+怎么用)

[第二次冲突 30秒] 主线任务再次受挫 + 来龙去脉
└→ 解释根因,引出高级概念

[第三波推进 2-3分钟] 进一步解决 + 引入高阶概念
└→ 引入2-3个高级概念(实战应用)

[高潮 1-2分钟] 主线任务完成
└→ 拿到结果、复盘、因果总结

[收尾 5-10秒] 人设锚点 + 关注动机
└→ "我是晚枫,关注我……"

核心变化

  • 概念不是孤立的知识点,是主角解决问题的工具
  • 每次受挫必须加来龙去脉(WHY)——让下一个概念出场有必然理由
  • 高潮段必须加因果总结——把所有概念的因果关系点破

五、概念讲解:4拍子结构

每个概念出场,必须走4拍:

1
2
3
4
5
6
7
8
9
10
11
第一拍·体验:用户在场景里"遇到"了这个东西
└→ "你输入的'帮我写周报'会被拆成6个小块"

第二拍·命名:告诉用户这叫什么
└→ "这每一小块,就是Token"

第三拍·类比:用一个生活比喻让它落地
└→ "Token就是AI的字数计数器——就像打印店按页收费"

第四拍·重复/应用:让用户知道怎么用
└→ "下次你看AI账单,发现写着'消耗了多少Token',你就秒懂了"

第4拍的5种写法

写法示例
场景回扣"所以你再回看刚才那条AI回答……"
现实映射"下次你看到SaaS工具按Token收费,就知道这钱花在哪了"
行动指令"把这句话记下来:'Token是AI的字数计数器'"
误解澄清"那些说'AI不用学就能用'的——前提是你得知道Token在计费"
因果回扣"所以AI回答到一半停了,不是它懒,是Token用完了"

5.1 统一类比体系

如果同一篇稿子的多个概念有递进关系,优先使用统一类比体系——用一个类比的不同阶段串联所有概念。

对比

1
2
3
4
5
6
7
8
9
10
11
❌ 独立类比(各说各的)
大模型 = 字典
AI Coding = 翻译机
桌面版AI = 秘书
→ 用户记住了3个比喻,但没记住关系

✅ 统一递进类比(一个比喻贯穿)
大模型 = 发动机——动力强,没轮子
AI Coding = 发动机+方向盘——能开了,但得会开车
桌面版AI = 一辆坐上去就能开的车——全配齐
→ 用户记住了1个比喻的3个阶段,自然理解递进关系

5.2 子概念故事化

子概念必须用故事/场景/类比引出,而不是直接给定义。

对比

1
2
3
4
5
6
7
❌ 规格说明书式
"AI Coding分为IDE版和CLI版。IDE版是集成开发环境……"

✅ 故事化式
"你可能注意到这些工具长得不一样——
IDE版像Cursor,打开它左边是代码右边是聊天框,就像在一个车间里盯着AI干活。
CLI版像Claude Code,打开一个黑窗口打命令,就像给AI下军令状,说完它去做。"

六、AI可读格式:脚本的标准写法

6.1 基本单元:镜头块

每个"镜头块"是AI生成视频的最小单位,包含:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
---

[时间码:0:00-0:30]
[镜头类型:开场/图标飞入/场景还原/对比/动画拆解]
[视觉指令:淡入/闪白/滑动/缩放/旋转]

**旁白**
你输入的话,AI会把它拆成一个个小块。比如"帮我写周报"6个字,大约消耗6个Token。

**字幕**
Token:AI的字数计数器

**画面描述**
画面正中一个输入框,文字"帮我写周报"被切成6个小方块,每个方块高亮闪烁。小方块从输入框飞散出来,在空中排列成"Token"字样。

**视觉对应物**
- Token图标(小方块组合)从下方飞入画面中央
- 图标旁浮现文字"Token",停留1秒后缩为右下角标记

**音效**
- 文字被切时:轻微"咔嚓"声
- 图标飞入时:轻微"嗖"声
- 压屏时:轻微"叮"声

**转场**
淡入(从黑屏淡入到画面)

---

6.2 镜头类型说明(AI生成参考)

镜头类型用途AI生成提示
开场视频开头,建立场景生成一个"进入场景"的画面,如打开笔记本电脑、打开APP
图标飞入概念首次出场画面中央空圆圈,图标从下方飞入,概念名浮现
场景还原展示概念在现实中的样子生成一个具体场景,如"HR桌前摆着人设卡片"
对比展示"前后/对错/有无"画面分左右两半,左边旧/错,右边新/对
动画拆解展示一个东西被拆分成部分整体→爆炸/撕开→逐个高亮讲解
流程图展示概念之间的关系多个概念节点+箭头串联
进度条展示进度/状态顶部或底部进度条,已完成的灰色,未完成的彩色
压屏金句核心概念总结整句话压屏,居中,黑底白字,1秒

6.3 视觉指令说明(AI生成参考)

视觉指令效果适用场景
淡入从黑屏逐渐亮起来视频开头、章节切换
闪白画面闪一下白色关键概念首次出场
滑动画面从左/右滑入对比、并列展示
缩放画面放大或缩小突出重点、进入细节
旋转画面旋转概念关系展示(如旋转木马)
溶解画面像溶解一样切换强相关概念之间的过渡
模糊画面变模糊再变清晰软化场景切换
形状遮罩用圆形/方形框住重点关键引言、金句

6.4 字幕与文字规范

单屏文字不超过3行,且只放关键词、核心短语,不放完整句子。

文字类型样式示例
概念名品牌色+加粗+18-24号字Token
例子/数字白色普通字6个字、6个Token
情绪词黄色高亮"明显靠谱了"
否定/警告红色+警示图标"⚠️ 这是编的"
压屏金句黑底白字,居中,1秒"Token是AI的字数计数器"

6.5 音效清单(AI生成参考)

每个概念出场时,最好配一个轻微音效,强化记忆:

音效触发时机效果
"叮"(清脆)概念图标飞入新鲜感、注意力
"嗖"(快速)文字/图标快速移动速度感、流畅感
"咔嚓"(轻微)东西被拆开/切断拆解感、分析感
"咚"(低沉)冲突/转折出现警示感、紧张感
静默2秒金句之后颅内高潮、留白

七、场景细节锚定:6个维度

每个场景必须有6个维度的细节,否则AI生成出来的画面会很空:

维度作用示例
具体台词用户有原话可以引用"帮我写周报"
具体数字场景可信3年经验、1万薪资
具体取舍暴露真实诉求不考虑销售、优先一线
情绪词让用户感同身受"明显靠谱了许多"
画面细节让AI知道生成什么画面电脑屏幕、AI头像弹出、输入框特写
误解澄清主动打消错误认知"AI不是帮你不用写,是帮你写得更快"

八、传播与互动:自媒体特色

8.1 开头3秒的生死线

用户在3秒内决定是否划走。开头必须有:

  1. 钩子(悬念/反常识/数字/冲突/痛点)
  2. 共情瞬间("说实话,我也曾是……")
  3. 场景设定("假设你最近准备找工作")

顺序必须是:钩子 → 共情 → 场景。

8.2 钩子密度与节奏

时长钩子密度信息增量
3-5分钟每30秒一个钩子每1分钟一个新概念
5-10分钟每1分钟一个钩子每2分钟一个新视角
10-15分钟每2分钟一个钩子每3分钟一个案例
15分钟以上每3分钟一个钩子每5分钟一个总结

钩子的5种形态

  1. 悬念钩:"但接下来发生的事,谁都没想到……"
  2. 反常识钩:"你以为……,其实……"
  3. 数字钩:"注意,3个数字:3年、1万、一线"
  4. 冲突钩:"HR突然问了一个问题:……"
  5. 金句钩:"我把它叫做'AI的字数计数器'"

8.3 互动设计

不要做的事

  • ❌ "点赞关注转发"(命令感,用户反感)
  • ❌ "感谢观看"(客套感,无意义)
  • ❌ "今天我们学习了……"(上课感)

要做的事

  • 提问式收尾:"你遇到过AI幻觉吗?评论区聊聊"
  • 预告式收尾:"下期讲'租房避坑的10个AI用法',关注我不错过"
  • 循环闭合:结尾呼应开头
  • 人设锚点:"我是晚枫,写代码的、学过法的、讲AI真话的"

8.4 结尾的3个要素

1
2
3
4
5
6
7
8
[要素1] 概念回扣(10秒)
└→ "回头看这13个概念,其实有一条暗线:让AI越来越像'懂你'的资深HR"

[要素2] 人设锚点(5秒)
└→ "我是晚枫,写代码的、学过法的、讲AI真话的"

[要素3] 关注动机(5秒)
└→ "下期讲'租房避坑的10个AI用法',关注我不错过"

8.5 循环闭合

结尾要呼应开头。比如:

1
2
开头:"找工作用AI的人,90%都在瞎用。"
结尾:"现在你知道了,90%的人瞎用,是因为不知道这13个概念。"

九、人设锚点:程序员晚枫

9.1 晚枫是谁

标签具体描述脚本风格要求
程序员写代码出身,搞过开源项目(python-office 38万+下载)技术类比要准,不装懂;代码梗自然
法学院毕业中国政法大学,逻辑训练扎实逻辑链条清晰,因果递进;旁征博引用生活场景
全网40万+粉丝博主懂内容、懂流量、懂用户知道用户痛点在哪,不说正确的废话
黑色幽默爱好者喜欢冷笑话、自嘲、反讽严肃话题里突然来一句让人愣一下然后笑的话
完美主义者对细节要求极高,标准明确不模棱两可,"大概""可能""某种程度上"尽量不用

9.2 语言风格5大特征

特征1:直接、不绕弯子

1
2
3
4
5
❌ "众所周知,在当前的数字化转型浪潮中,人工智能正在深刻地改变着我们的工作方式……"
→ 正确的废话,任何人都能说

✅ "我用AI写周报,领导说比我自己写的还像人话——问题是我写的本来就不像人话。"
→ 自嘲开场,直接进场景,不铺垫

特征2:黑色幽默+冷笑话

1
2
3
4
5
❌ "AI幻觉是一个需要我们高度重视的问题。"
→ 正确的废话

✅ "AI幻觉就是AI一本正经地胡说八道。就像你那个喝醉了的大学同学,信誓旦旦说他认识马化腾,其实连马化腾微信都没加过。"
→ 类比精准,有画面感,还有点损

特征3:旁征博引(生活化类比)

1
2
3
4
5
❌ "Token是AI的字数计数器。"
→ 太浅,没有特色

✅ "Token是AI的字数计数器。就像你去打印店——打印按页收费,复印按张收费,AI按Token收费。本质一样:定价需要一个最小不可分单位。"
→ 用生活场景解释技术概念,一听就懂

特征4:不装腔作势,接地气

1
2
3
4
5
❌ "作为一位深耕AI领域多年的技术博主……"
→ 一听就想划走

✅ "说实话,我三个月前也是。同事开会聊起这些,我一句话都插不上——感觉就像一群人讨论'量子纠缠',我在旁边数他们说了几个'量子'。"
→ 承认自己不懂,用户反而信任你

特征5:有主见,不随波逐流

1
2
3
4
5
❌ "小红书图文视频版做了吗?"
→ 随波逐流

✅ "小红书只是分发平台,脚本是统一内容,多平台分发。不为任何平台设专门格式。"
→ 有自己的判断,标准明确

十、完整示例:「找工作13个AI概念」脚本(v3.0格式)


镜头1:开场钩子

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
[时间码:0:00-0:05]
[镜头类型:开场]
[视觉指令:淡入]

**旁白**
找工作用AI的人,90%都在瞎用。

**字幕**
90%的人瞎用

**画面描述**
黑屏淡入,画面中央出现红色大号数字"90%",数字周围有轻微的脉冲动画。背景是一个模糊的办公室场景,有人对着电脑屏幕叹气。

**视觉对应物**
- "90%"红色数字,脉冲动画
- 背景模糊办公室

**音效**
- 淡入时:轻微环境音(键盘敲击声)
- "90%"出现时:低沉"咚"一声

**转场**
淡入

镜头2:共情瞬间+场景设定

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
[时间码:0:05-0:15]
[镜头类型:场景还原]
[视觉指令:滑动(从右向左)]

**旁白**
说实话,我三个月前也是。打开DeepSeek聊两句,觉得挺好玩,然后就没了。直到有一天,我准备找工作……

**字幕**
"我也曾是"

**画面描述**
画面从模糊办公室滑动到一台笔记本电脑屏幕。屏幕上是DeepSeek的聊天界面,输入框里写着"帮我找份工作",光标闪烁。屏幕旁边有一个咖啡杯,杯子上印着"打工人"三个字。

**视觉对应物**
- 笔记本电脑屏幕(DeepSeek界面)
- 输入框特写
- 咖啡杯("打工人")

**音效**
- 滑动时:轻微"嗖"声
- 输入框出现时:轻微"叮"声

镜头3:背景设定

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
[时间码:0:15-0:25]
[镜头类型:场景还原]
[视觉指令:无]

**旁白**
假设你最近准备找工作——3年前端、1万薪资、优先一线、不考虑销售。你打开AI随口问了一句:"帮我找份工作。"

**字幕**
3年前端 / 1万薪资 / 优先一线 / 不考虑销售

**画面描述**
画面展示AI输入框,数字"3年""1万""一线""不销售"像小标签一样从屏幕边缘飞入,逐个贴在输入框周围。输入框里的文字"帮我找份工作"被红框圈住。

**视觉对应物**
- 数字标签飞入动画
- 输入框红框

**音效**
- 每个数字标签飞入时:轻微"叮"声(连叮4声)

镜头4:LLM概念出场

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
[时间码:0:25-0:55]
[镜头类型:图标飞入]
[视觉指令:闪白]

**旁白**
AI几秒钟给了你50个岗位。这背后干这活的,叫LLM——大语言模型。你可以理解成:AI的大脑。你每次打开AI聊天,背后都是它在干活。

**字幕**
LLM:AI的大脑

**画面描述**
画面闪白后,中央出现一个空圆圈。一个"神经网络+齿轮"的图标从下方飞入圆圈,短停顿0.3秒。概念名"LLM"浮现在图标旁,下方小字"大语言模型".

**视觉对应物**
- LLM图标(神经网络+齿轮组合)从下方飞入
- "LLM"大字+"大语言模型"小字

**音效**
- 闪白时:轻微"唰"声
- 图标飞入时:轻微"嗖"声
- 概念名浮现时:轻微"叮"声

**压屏金句**
"LLM,就是AI的大脑"(黑底白字,居中,1秒)

镜头5:Token概念出场

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
[时间码:0:55-1:25]
[镜头类型:动画拆解]
[视觉指令:无]

**旁白**
而你说的"帮我找份工作"这6个字,AI不会直接读。它会先拆成一个个小块。比如"帮我写周报"6个字,大约消耗6个Token。这就是Token——AI的字数计数器。

**字幕**
Token:AI的字数计数器

**画面描述**
画面中央展示输入框里的文字"帮我找份工作"。文字被切成6个小方块,每个小方块依次高亮(从第一个字到最后一个字)。高亮时,小方块轻微跳动。6个小方块切完后,在空中排列成"Token"字样。

**视觉对应物**
- 文字被切成6个小方块
- 每个方块高亮+跳动
- 方块排列成"Token"字样

**音效**
- 文字被切时:轻微"咔嚓"声
- 每个方块高亮时:轻微"叮"声(连叮6声)
- 排列成"Token"时:轻微"嗖"声

**压屏金句**
"Token,就是AI的字数计数器"(黑底白字,居中,1秒)

镜头6:Prompt概念出场

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
[时间码:1:25-1:50]
[镜头类型:场景还原]
[视觉指令:无]

**旁白**
你输入的那句话,就是Prompt,提示词。你输入什么,AI就答什么。

**字幕**
Prompt:你输入的话

**画面描述**
画面聚焦输入框特写。文字"帮我找份工作"从用户嘴边(画面左侧)"飞"到输入框里,飞入时有粒子拖尾效果。文字进入输入框后,输入框边框发光。

**视觉对应物**
- 输入框特写
- 文字从左侧飞入(粒子拖尾)
- 输入框边框发光

**音效**
- 文字飞入时:轻微"嗖"声
- 边框发光时:轻微"叮"声

**压屏金句**
"Prompt,就是你输入的话"(黑底白字,居中,1秒)

镜头7:三者关系(流程图)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
[时间码:1:50-2:20]
[镜头类型:流程图]
[视觉指令:无]

**旁白**
三个东西的关系:LLM是大脑,Token是细胞,Prompt是你喂进去的话。大脑吃细胞,细胞来自你输入的话。

**字幕**
LLM(大脑)→ Token(细胞)→ Prompt(输入)

**画面描述**
画面中央展示三个节点:左边"LLM"(大脑图标)、中间"Token"(小方块图标)、右边"Prompt"(输入框图标)。三个节点用箭头串联:Prompt→Token→LLM。箭头上有流动的粒子效果,表示"数据流动"。

**视觉对应物**
- 三个节点图标
- 箭头串联
- 流动粒子效果

**音效**
- 节点出现时:轻微"叮"声(连叮3声)
- 箭头连接时:轻微"嗖"声
- 粒子流动时:轻微连续"沙沙"声

镜头8:第一次冲突

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
[时间码:2:20-2:30]
[镜头类型:对比]
[视觉指令:滑动(从左到右)]

**旁白**
但问题来了——AI给的50个岗位里,10个是销售、20个是5千薪资、剩下的30个你根本不想去。

**字幕**
⚠️ 但问题来了

**画面描述**
画面左侧展示AI给出的50个岗位列表(快速滚动)。右侧突然切入一个红色"X",划掉"销售""5千薪资""不想去"的岗位。被划掉的岗位变灰,剩下的岗位高亮。

**视觉对应物**
- 50个岗位列表快速滚动
- 红色"X"划掉
- 被划掉的变灰,剩下的高亮

**音效**
- 列表滚动时:快速"唰唰"声
- 红色"X"出现时:低沉"咚"声
- 岗位变灰时:轻微"咔嚓"声

镜头9:提示词工程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
[时间码:2:30-3:00]
[镜头类型:对比]
[视觉指令:滑动(左右对比)]

**旁白**
你换种说法:"我有3年前端开发经验,希望薪资1万以上,优先一线城市,不考虑销售岗位"——这一次回答明显靠谱多了。这种把需求说清楚的方法,就叫提示词工程。

**字幕**
提示词工程:把需求说清楚

**画面描述**
画面分左右两半:左边是第一次输入"帮我找份工作"(短、模糊),右边是第二次输入"3年前端/1万/一线/不销售"(长、具体)。两个输入框用箭头指向各自的AI回答:左边回答是50个混乱岗位,右边回答是10个精准岗位。右边回答框有绿色"✓"标记。

**视觉对应物**
- 左右两个输入框对比
- 箭头指向各自的回答
- 左边红色"X",右边绿色"✓"

**音效**
- 左边出现时:轻微"叮"声
- 右边出现时:轻微"叮"声(音调更高)
- 绿色"✓"出现时:清脆"叮"声

**压屏金句**
"提示词工程:把需求说清楚"(黑底白字,居中,1秒)

(后续镜头按此格式继续,此处省略以节省篇幅)


十一、系列设计:拆分多期

11.1 分层策略

1
2
3
4
5
6
7
8
9
10
11
第1期:基础交互层(7-8个概念,10分钟内)
└→ 用户"打开就用"时遇到
└→ LLM / Token / Prompt / 提示词工程 / 上下文 / 系统提示词 / 模型

第2期:进阶能力层(7-8个概念,10-15分钟)
└→ 用户"传文件/做深度分析"时遇到
└→ 多模态 / 思维链 / 幻觉 / 知识截止 / RAG / 向量化 / 格式控制

第3期:高级玩法层(7-8个概念,12-15分钟)
└→ 用户"想靠自己定制AI"时遇到
└→ API / 工具调用 / Few-shot / 微调 / 多轮对话 / 速率限制 / 流式输出

11.2 系列衔接

每期结尾预告下期,但单期独立

1
2
3
第1期结尾:"上期讲了7个基础概念,这期讲8个深度玩法。关注我,下期一起把AI用到极致。"
第2期结尾:"AI用到这里,已经能帮你找工作了。但拿到offer后怎么谈薪?这才是真正赚钱的地方。关注我,下期讲。"
第3期结尾:"21个概念讲完了。回头看,AI圈新名词多的本质是——AI在一步步模拟一个'懂你'的资深HR。"

十二、自查清单(v3.0 20条)

写完一篇AI视频脚本后,逐条检查:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
☐ 1. 内容讲透了吗?
└→ 每个概念都回答了"是什么、为什么、怎么用"?
└→ 有生活类比,不是学术类比?
└→ 有具体案例,不是泛泛而谈?

☐ 2. 格式让AI能看懂吗?
└→ 每个段落都有时间码?
└→ 每个段落都有画面描述?
└→ 旁白和字幕分离?
└→ 视觉指令标注清楚?

☐ 3. 时长合理吗?
└→ 5个概念7-10分钟,7个概念10-15分钟
└→ >10个概念 = 拆成2期
└→ 完播率预期 > 30%

☐ 4. 1个完整场景用到底吗?
└→ 全文只有1个场景(找工作/租房/通勤……)
└→ 不是多个碎场景拼出来的

☐ 5. 概念是"主角解决问题的工具"吗?
└→ 把概念全部删掉,主线任务还能完成吗?不能 → 过关
└→ 能 → 概念是硬塞的,重写

☐ 6. 每个概念都用了"4拍子"吗?
└→ 体验→命名→类比→重复
└→ 至少要有"体验+命名"两拍
└→ 最抽象的概念必须有"类比"和"重复"

☐ 7. 概念之间是"主线任务推进"吗?
└→ 不是"换话题"式,而是"上一个问题解决→撞上下一个问题"
└→ 每次受挫必须加来龙去脉(WHY)
└→ 收尾必须有因果总结

☐ 8. 全文没有"第一/第二/第三"吗?

☐ 9. 场景有6维度细节吗?
└→ 台词 ✓ 数字 ✓ 取舍 ✓ 情绪词 ✓ 画面细节 ✓ 误解澄清 ✓

☐ 10. 每个概念出场时画面上有对应物吗?
└→ LLM出现时有"AI大脑"图标
└→ Token出现时有"文字被切块"动画
└→ 提示词工程出现时有"前后对比"动效

☐ 11. 每个段落都有镜头块格式吗?
└→ 时间码、镜头类型、视觉指令、旁白、字幕、画面描述、视觉对应物、音效

☐ 12. 转场选对了吗?
└→ 概念首次出场用"闪白"
└→ 对比/并列用"滑动"
└→ 章节切换用"淡入淡出"
└→ 突出重点用"缩放"

☐ 13. 字幕和压屏金句做了吗?
└→ 单屏文字 < 3行
└→ 每个概念后有1秒"金句压屏"

☐ 14. 节奏变速合理吗?
└→ 概念定义0.9倍速
└→ 冲突/反转1.3倍速
└→ 收尾0.85倍速 + 2秒静默

☐ 15. 10分钟以上做了章节进度条吗?

☐ 16. 开头钩子 + 结尾回扣 形成了循环闭合吗?

☐ 17. 开头有"我也曾……"的共情瞬间吗?
└→ 必须放开头(钩子之后、场景之前)

☐ 18. 收尾有人设锚点 + 关注动机吗?

☐ 19. 类比体系是统一的吗?
└→ 有递进关系的概念,优先用统一递进类比

☐ 20. 语言风格有"晚枫味"吗?
└→ 至少3处黑色幽默/冷笑话/自嘲?
└→ 至少2处旁征博引(生活场景类比)?
└→ 没有"众所周知/某种程度上/大概可能"等模糊词?
└→ 没有"作为一位深耕……多年的专家"等装腔作势开头?
└→ 自嘲过至少1次?
└→ 有1处直接怼常见误解的犀利表达?
└→ 换成其他博主读不了 → 过关

十三、爆款技巧清单(来自调研)

13.1 来自"心中之城"的成功要素

  • 拒绝3分钟快剪:用纪录片的精度做解说,单期3小时也能82%完播
  • 信息分层:表层剧情+深层动机,让用户"看完想再看"
  • 痛点转译公式:将剧中冲突映射当代焦虑
  • 身份认同强化:用"我们""你"等集体叙事
  • 声音修辞:低频共振音色、变速控流、关键台词后2秒静默
  • 视觉符号强化:固定开场+关键台词动态文字压屏

13.2 来自"听风的蚕"的成功要素

  • 跨领域整合:国际关系+经济+科技+历史,放在一个故事里讲
  • 故事化表达:评书式节奏,把复杂信息讲成"段子"
  • 接地气类比:把"半导体产业链"翻译成"打工人升职路径"
  • 持续输出:每天更新1条,建立"日更"心智

13.3 来自抖音超长视频的成功要素

  • "一口气"叙事:不切成几十个短视频,做完整的长内容
  • 片头自我标注:黑底白字"本视频耗时5个月制作,共计450分钟"——把"长"作为卖点
  • 细节复刻+心理微距:用细节而不是大纲讲故事
  • 拆分发布:450分钟分6期发布,既享受长视频完播率,又获得短视频流量

13.4 来自科普讲解研究的关键结论

  • 故事引入式开场优先于其他开场
  • 不能用"大家好今天我们讲"开场——90%的科普输在开头
  • 开场要"帮助观众发现他们本就好奇的世界"
  • 3秒内必须建立"和我有关"——否则用户划走

13.5 来自短视频时长研究的结论

  • 抖音知识科普60-120秒(头部中位)
  • 抖音口播3-5分钟(爆款集中区间)
  • B站知识区8-15分钟(深度讲解黄金时长)
  • 超10分钟长视频每90秒设一个钩子
  • 每5-10秒切换画面/字幕——避免用户走神

十四、反面案例库

反面1:场景和概念分离

1
2
❌ "假设你想用AI写周报。"
(中间开始:Token是什么、Prompt是什么、LLM是什么……再也不提周报)

问题:场景只是噱头,概念和故事两层皮。

改法:用"用AI找工作"一个场景,所有概念都在这个场景里出场。

反面2:列举式

1
❌ "AI有7个核心概念:第一,LLM是大语言模型。第二,Token是文字单位……"

问题:用户在第2个概念就划走。

改法:用主线任务推进,"先解决A问题→引出A概念→撞上B问题→引出B概念"。

反面3:概念散落在不同场景

1
2
3
❌ 概念1用"写周报"举例
概念2用"翻译外文"举例
概念3用"做客服"举例

问题:用户要不断切换心理模型,沉浸感为零。

改法:1个场景用到底,13个概念都在"找工作"里。

反面4:时长硬塞

1
2
❌ 15个概念硬塞进10分钟
→ 语速飞快、例子草草、用户跟不上

改法:15个概念=拆2期,每期7-8个概念10-15分钟。

反面5:场景太小

1
2
❌ "假设你想让AI帮你改个字体颜色"
→ 场景太窄,撑不起7个概念

改法:选能装下本期所有概念的"主线任务型"场景。

反面6:没有画面描述

1
2
❌ 文字稿只有旁白,没有画面描述
→ AI不知道生成什么画面,只能瞎配

改法:每个段落必须有画面描述、视觉对应物、视觉指令。

反面7:节奏匀速

1
2
❌ 整篇都是同一种语速
→ 没有重点、没有戏剧感

改法:概念定义0.9倍速、冲突1.3倍速、收尾0.85倍速+2秒静默。

反面8:结尾没有回扣

1
2
❌ 结尾:"今天我们学习了7个概念,点赞关注。"
→ 概念学完了,但用户不知道"那然后呢"

改法:结尾呼应开头+主线任务完成+引出下期。


十五、与主创作指南的关系

维度主指南(AI视频脚本创作指南.md)本指南v3.0
适用场景AI生成视频一个场景讲多个概念
最高优先级内容讲透+格式让AI看懂主线任务推进
结构钩子→数据→反转→锚点→互动开场→背景→第一波→冲突→第二波→冲突→第三波→收尾
时长不设上限(按内容量决定)不设上限(按概念数1.5-2分钟/个计算)
概念密度从一个点发散7±2个概念/期
视觉方案脚本必须含画面描述+视觉指令本指南重点(AI可读格式)
互动争议问题+关注动机关注动机+下期预告
例子单点举例1个完整场景用到底

十六、v3.0新增/升级章节速查

章节v2.2有v3.0新增/升级解决的问题
一、重定义口播稿概念AI视频脚本概念+核心要求2点不出镜,用插件生成视频
一、AI可读格式标准格式模板(时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场)AI看不懂脚本,生成画面瞎配
二、内容要求口播稿内容知识类爆款视频共性+从一点发散到一片内容不够详尽,讲不透
六、AI可读格式无(只有视觉与剪辑)镜头块格式+镜头类型说明+视觉指令说明+字幕规范+音效清单格式不规范,AI理解困难
十、完整示例文案+分镜表文案+分镜表→镜头块格式示例(含时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场)示例不够清晰,AI无法复用
十二、自查清单20条20条(第1-2条改为内容+格式检查,其余保留)内容讲透+格式让AI看懂

更新记录

日期更新内容更新人
2026-06-12初版,提炼"场景叙事讲多概念"方法论抖音策略师
2026-06-12新增"三拍子节奏"、"递进式问题链"、"场景细节锚定"、"因果依存排列"、"完整示例"等技法枫灵
2026-06-15v2重写版:①放弃硬性时长上限②1个完整场景用到底③视觉方案前置规划(分镜表+视觉化方式A/B/C/D)④主线任务推进式结构⑤4拍子节奏(加"重复")⑥7大打工人场景库⑦17条新自检项⑧爆款案例技巧汇总枫灵
2026-06-16v2.1升级版:①来龙去脉WHY②统一递进类比体系③误解澄清④子概念故事化⑤共情瞬间必须放开头⑥收尾因果总结⑦自查清单17条→19条枫灵
2026-06-16v2.2升级版:①新增"程序员晚枫语言风格规范"(9.3节)——黑色幽默/冷笑话/旁征博引/直接犀利/不装腔作势/有主见②自查清单19条→20条(新增风格检查项)枫灵
2026-06-16v3.0重定义版:①从"口播稿"重定义为"AI视频脚本"(不出镜,用Hyperframes等插件生成)②核心要求明确为2点:内容讲透+格式让AI看懂③新增AI可读格式标准(时间码/镜头类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场)④完整示例改为镜头块格式⑤自查清单第1-2条改为内容+格式检查⑥场景库从7个扩展到8个枫灵