AI视频脚本创作指南（v3.0 重定义版）

核心理念：我们不叫"口播稿"了——因为不出镜。我们用 Hyperframes 这类插件生成视频。本指南产出的内容就是给AI看的"视频蓝图"。
唯一目标：让AI能根据脚本，自动生成画面、字幕、配音、动画、转场——像导演给摄影师下指令一样清晰。

一、重定义：从"口播稿"到"AI视频脚本"

1.1 为什么改？

老模式（口播稿）	新模式（AI视频脚本）
假设有真人出镜	假设用插件生成视频
文案为主，画面为辅	文案+画面同等重要，甚至画面更重要
只考虑"怎么写"	还要考虑"AI怎么理解、怎么生成"
时长受真人出镜限制	时长无限制，内容讲透为止
传播靠人	传播靠内容+平台算法

1.2 AI视频脚本的核心要求（只有两点）

第1点：内容要足够详尽、通俗易懂

给你一个话题、知识点或概念，要把它解释得足够清楚——尽量让"小白"也能听懂
时间上没有限制，可以旁征博引，把背后的原理、应用、相关概念都讲透
参考知识类爆款视频的做法：从一个点发散出去，营造出"能讲很多"的感觉
不要假设用户有背景知识，每个概念都要讲透

第2点：格式要让AI/插件能看懂

每个段落必须有明确的时间码（如 [0:00-0:30]）
每个段落必须标注画面描述（AI需要知道生成什么画面）
必须分离旁白（配音文本）和字幕（屏幕文字）
必须标注视觉指令（动画、转场、字体、颜色、音效）
概念出场时，必须标注视觉对应物（图标、动画、示意图）

1.3 AI能看懂的标准格式

[时间码：0:00-0:30]
[画面类型：开场/图标飞入/场景还原/对比/动画拆解]
[视觉指令：淡入/闪白/滑动/缩放/旋转]
[旁白]：你输入的话，AI会把它拆成一个个小块……
[字幕]：Token：AI的字数计数器
[音效]：轻微"叮"一声
[画面描述]：画面正中一个输入框，文字"帮我写周报"被切成6个小方块，每个方块高亮闪烁
[视觉对应物]：Token图标（小方块组合）从下方飞入

判断标准：如果把这个脚本直接丢给AI，AI能生成出70%以上的画面——脚本就是合格的。

二、内容要求：讲透，不是讲完

2.1 知识类爆款视频的共性

调研抖音、B站、视频号、YouTube的知识类爆款后，发现它们都有这些特征：

特征	具体做法	代表案例
从一个点发散	讲一个概念，顺带引出5个相关概念	"何同学"讲5G，顺带讲通信史
原理+应用+案例	不只讲"是什么"，还讲"为什么"和"怎么用"	"硬核拆解"讲手机芯片
旁征博引	用历史、经济、生活、科学多视角解释	"听风的蚕"讲国际关系
故事化	把知识点包装成"一个普通人的经历"	"半佛仙人"讲商业
节奏感	每30秒-1分钟一个小高潮，信息密度高	"米三汉"讲红楼梦
视觉化	抽象概念必配动画/图标/示意图	所有知识区头部账号

本指南建议：

单期视频 3-15 分钟（按内容量决定，不设上限）
如果概念多到 15 分钟讲不完，拆成多期，不要硬塞
内容密度：每1-2分钟必须有一个"信息增量"（新概念、新案例、新视角）
完播率 > 30% 算合格，> 50% 算优秀

2.2 内容结构：从"一点"到"一片"

知识类爆款不是"讲一个概念"，而是以这个概念的起点，发散出一个知识网络。

[核心概念]：Token（AI的字数计数器）
  ├→ [原理层]：为什么AI要拆成小块？→ 讲Tokenization、编码、神经网络输入
  ├→ [应用层]：Token怎么计费？→ 讲不同模型的Token定价、怎么省Token
  ├→ [关联层]：Token和什么有关？→ 讲上下文窗口、输出Token限制、流式输出
  ├→ [历史层]：Token怎么来的？→ 讲从字符到词到子词的发展历程
  ├→ [对比层]：Token和什么像？→ 讲打印店按页收费、手机按流量计费
  └→ [实战层]：怎么用好Token？→ 讲提示词压缩、Token监控工具

判断标准：一个概念能发散出5-6个相关维度，用户看完会觉得"学到了不止一个东西"。

2.3 内容深度：3岁小孩能听懂（夸张说法）

每个概念必须回答：是什么、为什么、怎么用
每个原理必须配生活类比（不是学术类比）
每个案例必须具体、可复现（不是泛泛而谈）
每个结论必须有因果链条（不是跳跃式推理）

禁止：

❌ "众所周知，在当前的技术背景下……"（正确的废话）
❌ "这个概念很重要，大家要记住"（说教感）
❌ "简单来说，就是……"（说了等于没说）
❌ 只给定义不给例子

三、场景与故事：一个主角，一条主线

3.1 为什么必须"一个场景用到底"

AI生成视频时，场景切换越少，画面越连贯。如果脚本里场景跳来跳去，AI生成的画面会很碎。

新规则：

整篇脚本只允许有1个完整场景，所有概念都在这个场景里自然长出来。
这个场景必须是大多数用户都接触过的（找工作、租房、写周报、点外卖、去医院……）。
如果一个场景装不下所有概念，拆成多期，不要硬塞。

3.2 场景库：8大经典场景

按"用户接触频率"从高到低排：

场景	痛点	可装概念数	适合主题
找工作/投简历/面试	简历没回复、面试被刷、不会谈薪	10-15个	AI基础+进阶+高级全栈
租房/搬家/找室友	假房源、合同看不懂、被坑	8-12个	信息识别+工具类
写周报/写汇报/写复盘	写得像流水账、领导说没重点	6-8个	写作+结构化思维
点外卖/购物/比价	不知道选哪个、怕被坑	6-8个	决策+推荐算法
去医院/看病/挂号	不会挂号、不懂医生的话	6-10个	健康+信息识别
第一次当管理者	不会开会、不会分配任务	10-12个	协作+管理+软技能
副业/接私活/跳槽谈薪	不知道怎么报价	8-10个	商业+谈判
第一次用AI干活	不知道怎么用、回答太泛	8-12个	AI工具入门

3.3 角色代入：用"你"还是"我"

推荐用"你"+"我"混合：

场景设定：用"你"——"假设你最近准备找工作"（让用户代入）
情绪共鸣：用"我"——"我当时也是这样"（让用户觉得是过来人讲）
概念定义：用"它"——"它叫提示词工程"（客观命名）

四、脚本结构：五段式推进

[开场 3-5秒] 钩子 + 场景设定
  └→ 悬念钩/反常识钩/数字钩/冲突钩/痛点钩
  └→ 共情瞬间（"说实话，我也曾是……"）
  └→ 场景设定（"假设你最近准备找工作"）

[背景设定 10-15秒] 主角+冲突
  └→ 具体数字+具体取舍=可代入

[第一波推进 2-3分钟] 主线任务启动
  └→ 引入2-3个基础概念（是什么）

[第一次冲突 30秒] 主线任务受挫 + 来龙去脉
  └→ "但问题来了——"
  └→ 来龙去脉（WHY）：解释为什么受挫

[第二波推进 2-3分钟] 解决问题 + 引入进阶概念
  └→ 引入2-3个进阶概念（为什么+怎么用）

[第二次冲突 30秒] 主线任务再次受挫 + 来龙去脉
  └→ 解释根因，引出高级概念

[第三波推进 2-3分钟] 进一步解决 + 引入高阶概念
  └→ 引入2-3个高级概念（实战应用）

[高潮 1-2分钟] 主线任务完成
  └→ 拿到结果、复盘、因果总结

[收尾 5-10秒] 人设锚点 + 关注动机
  └→ "我是晚枫，关注我……"

核心变化：

概念不是孤立的知识点，是主角解决问题的工具
每次受挫必须加来龙去脉（WHY）——让下一个概念出场有必然理由
高潮段必须加因果总结——把所有概念的因果关系点破

五、概念讲解：4拍子结构

每个概念出场，必须走4拍：

第一拍·体验：用户在场景里"遇到"了这个东西
  └→ "你输入的'帮我写周报'会被拆成6个小块"

第二拍·命名：告诉用户这叫什么
  └→ "这每一小块，就是Token"

第三拍·类比：用一个生活比喻让它落地
  └→ "Token就是AI的字数计数器——就像打印店按页收费"

第四拍·重复/应用：让用户知道怎么用
  └→ "下次你看AI账单，发现写着'消耗了多少Token'，你就秒懂了"

第4拍的5种写法：

写法	示例
场景回扣	"所以你再回看刚才那条AI回答……"
现实映射	"下次你看到SaaS工具按Token收费，就知道这钱花在哪了"
行动指令	"把这句话记下来：'Token是AI的字数计数器'"
误解澄清	"那些说'AI不用学就能用'的——前提是你得知道Token在计费"
因果回扣	"所以AI回答到一半停了，不是它懒，是Token用完了"

5.1 统一类比体系

如果同一篇稿子的多个概念有递进关系，优先使用统一类比体系——用一个类比的不同阶段串联所有概念。

对比：

❌ 独立类比（各说各的）
  大模型 = 字典
  AI Coding = 翻译机
  桌面版AI = 秘书
  → 用户记住了3个比喻，但没记住关系

✅ 统一递进类比（一个比喻贯穿）
  大模型 = 发动机——动力强，没轮子
  AI Coding = 发动机+方向盘——能开了，但得会开车
  桌面版AI = 一辆坐上去就能开的车——全配齐
  → 用户记住了1个比喻的3个阶段，自然理解递进关系

5.2 子概念故事化

子概念必须用故事/场景/类比引出，而不是直接给定义。

对比：

❌ 规格说明书式
  "AI Coding分为IDE版和CLI版。IDE版是集成开发环境……"

✅ 故事化式
  "你可能注意到这些工具长得不一样——
   IDE版像Cursor，打开它左边是代码右边是聊天框，就像在一个车间里盯着AI干活。
   CLI版像Claude Code，打开一个黑窗口打命令，就像给AI下军令状，说完它去做。"

六、AI可读格式：脚本的标准写法

6.1 基本单元：镜头块

每个"镜头块"是AI生成视频的最小单位，包含：

---

[时间码：0:00-0:30]
[镜头类型：开场/图标飞入/场景还原/对比/动画拆解]
[视觉指令：淡入/闪白/滑动/缩放/旋转]

**旁白**：
你输入的话，AI会把它拆成一个个小块。比如"帮我写周报"6个字，大约消耗6个Token。

**字幕**：
Token：AI的字数计数器

**画面描述**：
画面正中一个输入框，文字"帮我写周报"被切成6个小方块，每个方块高亮闪烁。小方块从输入框飞散出来，在空中排列成"Token"字样。

**视觉对应物**：
- Token图标（小方块组合）从下方飞入画面中央
- 图标旁浮现文字"Token"，停留1秒后缩为右下角标记

**音效**：
- 文字被切时：轻微"咔嚓"声
- 图标飞入时：轻微"嗖"声
- 压屏时：轻微"叮"声

**转场**：
淡入（从黑屏淡入到画面）

---

6.2 镜头类型说明（AI生成参考）

镜头类型	用途	AI生成提示
开场	视频开头，建立场景	生成一个"进入场景"的画面，如打开笔记本电脑、打开APP
图标飞入	概念首次出场	画面中央空圆圈，图标从下方飞入，概念名浮现
场景还原	展示概念在现实中的样子	生成一个具体场景，如"HR桌前摆着人设卡片"
对比	展示"前后/对错/有无"	画面分左右两半，左边旧/错，右边新/对
动画拆解	展示一个东西被拆分成部分	整体→爆炸/撕开→逐个高亮讲解
流程图	展示概念之间的关系	多个概念节点+箭头串联
进度条	展示进度/状态	顶部或底部进度条，已完成的灰色，未完成的彩色
压屏金句	核心概念总结	整句话压屏，居中，黑底白字，1秒

6.3 视觉指令说明（AI生成参考）

视觉指令	效果	适用场景
淡入	从黑屏逐渐亮起来	视频开头、章节切换
闪白	画面闪一下白色	关键概念首次出场
滑动	画面从左/右滑入	对比、并列展示
缩放	画面放大或缩小	突出重点、进入细节
旋转	画面旋转	概念关系展示（如旋转木马）
溶解	画面像溶解一样切换	强相关概念之间的过渡
模糊	画面变模糊再变清晰	软化场景切换
形状遮罩	用圆形/方形框住重点	关键引言、金句

6.4 字幕与文字规范

单屏文字不超过3行，且只放关键词、核心短语，不放完整句子。

文字类型	样式	示例
概念名	品牌色+加粗+18-24号字	Token
例子/数字	白色普通字	6个字、6个Token
情绪词	黄色高亮	"明显靠谱了"
否定/警告	红色+警示图标	"⚠️ 这是编的"
压屏金句	黑底白字，居中，1秒	"Token是AI的字数计数器"

6.5 音效清单（AI生成参考）

每个概念出场时，最好配一个轻微音效，强化记忆：

音效	触发时机	效果
"叮"（清脆）	概念图标飞入	新鲜感、注意力
"嗖"（快速）	文字/图标快速移动	速度感、流畅感
"咔嚓"（轻微）	东西被拆开/切断	拆解感、分析感
"咚"（低沉）	冲突/转折出现	警示感、紧张感
静默2秒	金句之后	颅内高潮、留白

七、场景细节锚定：6个维度

每个场景必须有6个维度的细节，否则AI生成出来的画面会很空：

维度	作用	示例
具体台词	用户有原话可以引用	"帮我写周报"
具体数字	场景可信	3年经验、1万薪资
具体取舍	暴露真实诉求	不考虑销售、优先一线
情绪词	让用户感同身受	"明显靠谱了许多"
画面细节	让AI知道生成什么画面	电脑屏幕、AI头像弹出、输入框特写
误解澄清	主动打消错误认知	"AI不是帮你不用写，是帮你写得更快"

八、传播与互动：自媒体特色

8.1 开头3秒的生死线

用户在3秒内决定是否划走。开头必须有：

钩子（悬念/反常识/数字/冲突/痛点）
共情瞬间（"说实话，我也曾是……"）
场景设定（"假设你最近准备找工作"）

顺序必须是：钩子 → 共情 → 场景。

8.2 钩子密度与节奏

时长	钩子密度	信息增量
3-5分钟	每30秒一个钩子	每1分钟一个新概念
5-10分钟	每1分钟一个钩子	每2分钟一个新视角
10-15分钟	每2分钟一个钩子	每3分钟一个案例
15分钟以上	每3分钟一个钩子	每5分钟一个总结

钩子的5种形态：

悬念钩："但接下来发生的事，谁都没想到……"
反常识钩："你以为……，其实……"
数字钩："注意，3个数字：3年、1万、一线"
冲突钩："HR突然问了一个问题：……"
金句钩："我把它叫做'AI的字数计数器'"

8.3 互动设计

不要做的事：

❌ "点赞关注转发"（命令感，用户反感）
❌ "感谢观看"（客套感，无意义）
❌ "今天我们学习了……"（上课感）

要做的事：

✅ 提问式收尾："你遇到过AI幻觉吗？评论区聊聊"
✅ 预告式收尾："下期讲'租房避坑的10个AI用法'，关注我不错过"
✅ 循环闭合：结尾呼应开头
✅ 人设锚点："我是晚枫，写代码的、学过法的、讲AI真话的"

8.4 结尾的3个要素

[要素1] 概念回扣（10秒）
   └→ "回头看这13个概念，其实有一条暗线：让AI越来越像'懂你'的资深HR"

[要素2] 人设锚点（5秒）
   └→ "我是晚枫，写代码的、学过法的、讲AI真话的"

[要素3] 关注动机（5秒）
   └→ "下期讲'租房避坑的10个AI用法'，关注我不错过"

8.5 循环闭合

结尾要呼应开头。比如：

1 2	开头："找工作用AI的人，90%都在瞎用。" 结尾："现在你知道了，90%的人瞎用，是因为不知道这13个概念。"

九、人设锚点：程序员晚枫

9.1 晚枫是谁

标签	具体描述	脚本风格要求
程序员	写代码出身，搞过开源项目（python-office 38万+下载）	技术类比要准，不装懂；代码梗自然
法学院毕业	中国政法大学，逻辑训练扎实	逻辑链条清晰，因果递进；旁征博引用生活场景
全网40万+粉丝博主	懂内容、懂流量、懂用户	知道用户痛点在哪，不说正确的废话
黑色幽默爱好者	喜欢冷笑话、自嘲、反讽	严肃话题里突然来一句让人愣一下然后笑的话
完美主义者	对细节要求极高，标准明确	不模棱两可，"大概""可能""某种程度上"尽量不用

9.2 语言风格5大特征

特征1：直接、不绕弯子

❌ "众所周知，在当前的数字化转型浪潮中，人工智能正在深刻地改变着我们的工作方式……"
   → 正确的废话，任何人都能说

✅ "我用AI写周报，领导说比我自己写的还像人话——问题是我写的本来就不像人话。"
   → 自嘲开场，直接进场景，不铺垫

特征2：黑色幽默+冷笑话

❌ "AI幻觉是一个需要我们高度重视的问题。"
   → 正确的废话

✅ "AI幻觉就是AI一本正经地胡说八道。就像你那个喝醉了的大学同学，信誓旦旦说他认识马化腾，其实连马化腾微信都没加过。"
   → 类比精准，有画面感，还有点损

特征3：旁征博引（生活化类比）

❌ "Token是AI的字数计数器。"
   → 太浅，没有特色

✅ "Token是AI的字数计数器。就像你去打印店——打印按页收费，复印按张收费，AI按Token收费。本质一样：定价需要一个最小不可分单位。"
   → 用生活场景解释技术概念，一听就懂

特征4：不装腔作势，接地气

❌ "作为一位深耕AI领域多年的技术博主……"
   → 一听就想划走

✅ "说实话，我三个月前也是。同事开会聊起这些，我一句话都插不上——感觉就像一群人讨论'量子纠缠'，我在旁边数他们说了几个'量子'。"
   → 承认自己不懂，用户反而信任你

特征5：有主见，不随波逐流

❌ "小红书图文视频版做了吗？"
   → 随波逐流

✅ "小红书只是分发平台，脚本是统一内容，多平台分发。不为任何平台设专门格式。"
   → 有自己的判断，标准明确

十、完整示例：「找工作13个AI概念」脚本（v3.0格式）

镜头1：开场钩子

[时间码：0:00-0:05]
[镜头类型：开场]
[视觉指令：淡入]

**旁白**：
找工作用AI的人，90%都在瞎用。

**字幕**：
90%的人瞎用

**画面描述**：
黑屏淡入，画面中央出现红色大号数字"90%"，数字周围有轻微的脉冲动画。背景是一个模糊的办公室场景，有人对着电脑屏幕叹气。

**视觉对应物**：
- "90%"红色数字，脉冲动画
- 背景模糊办公室

**音效**：
- 淡入时：轻微环境音（键盘敲击声）
- "90%"出现时：低沉"咚"一声

**转场**：
淡入

镜头2：共情瞬间+场景设定

[时间码：0:05-0:15]
[镜头类型：场景还原]
[视觉指令：滑动（从右向左）]

**旁白**：
说实话，我三个月前也是。打开DeepSeek聊两句，觉得挺好玩，然后就没了。直到有一天，我准备找工作……

**字幕**：
"我也曾是"

**画面描述**：
画面从模糊办公室滑动到一台笔记本电脑屏幕。屏幕上是DeepSeek的聊天界面，输入框里写着"帮我找份工作"，光标闪烁。屏幕旁边有一个咖啡杯，杯子上印着"打工人"三个字。

**视觉对应物**：
- 笔记本电脑屏幕（DeepSeek界面）
- 输入框特写
- 咖啡杯（"打工人"）

**音效**：
- 滑动时：轻微"嗖"声
- 输入框出现时：轻微"叮"声

镜头3：背景设定

[时间码：0:15-0:25]
[镜头类型：场景还原]
[视觉指令：无]

**旁白**：
假设你最近准备找工作——3年前端、1万薪资、优先一线、不考虑销售。你打开AI随口问了一句："帮我找份工作。"

**字幕**：
3年前端 / 1万薪资 / 优先一线 / 不考虑销售

**画面描述**：
画面展示AI输入框，数字"3年""1万""一线""不销售"像小标签一样从屏幕边缘飞入，逐个贴在输入框周围。输入框里的文字"帮我找份工作"被红框圈住。

**视觉对应物**：
- 数字标签飞入动画
- 输入框红框

**音效**：
- 每个数字标签飞入时：轻微"叮"声（连叮4声）

镜头4：LLM概念出场

[时间码：0:25-0:55]
[镜头类型：图标飞入]
[视觉指令：闪白]

**旁白**：
AI几秒钟给了你50个岗位。这背后干这活的，叫LLM——大语言模型。你可以理解成：AI的大脑。你每次打开AI聊天，背后都是它在干活。

**字幕**：
LLM：AI的大脑

**画面描述**：
画面闪白后，中央出现一个空圆圈。一个"神经网络+齿轮"的图标从下方飞入圆圈，短停顿0.3秒。概念名"LLM"浮现在图标旁，下方小字"大语言模型".

**视觉对应物**：
- LLM图标（神经网络+齿轮组合）从下方飞入
- "LLM"大字+"大语言模型"小字

**音效**：
- 闪白时：轻微"唰"声
- 图标飞入时：轻微"嗖"声
- 概念名浮现时：轻微"叮"声

**压屏金句**：
"LLM，就是AI的大脑"（黑底白字，居中，1秒）

镜头5：Token概念出场

[时间码：0:55-1:25]
[镜头类型：动画拆解]
[视觉指令：无]

**旁白**：
而你说的"帮我找份工作"这6个字，AI不会直接读。它会先拆成一个个小块。比如"帮我写周报"6个字，大约消耗6个Token。这就是Token——AI的字数计数器。

**字幕**：
Token：AI的字数计数器

**画面描述**：
画面中央展示输入框里的文字"帮我找份工作"。文字被切成6个小方块，每个小方块依次高亮（从第一个字到最后一个字）。高亮时，小方块轻微跳动。6个小方块切完后，在空中排列成"Token"字样。

**视觉对应物**：
- 文字被切成6个小方块
- 每个方块高亮+跳动
- 方块排列成"Token"字样

**音效**：
- 文字被切时：轻微"咔嚓"声
- 每个方块高亮时：轻微"叮"声（连叮6声）
- 排列成"Token"时：轻微"嗖"声

**压屏金句**：
"Token，就是AI的字数计数器"（黑底白字，居中，1秒）

镜头6：Prompt概念出场

[时间码：1:25-1:50]
[镜头类型：场景还原]
[视觉指令：无]

**旁白**：
你输入的那句话，就是Prompt，提示词。你输入什么，AI就答什么。

**字幕**：
Prompt：你输入的话

**画面描述**：
画面聚焦输入框特写。文字"帮我找份工作"从用户嘴边（画面左侧）"飞"到输入框里，飞入时有粒子拖尾效果。文字进入输入框后，输入框边框发光。

**视觉对应物**：
- 输入框特写
- 文字从左侧飞入（粒子拖尾）
- 输入框边框发光

**音效**：
- 文字飞入时：轻微"嗖"声
- 边框发光时：轻微"叮"声

**压屏金句**：
"Prompt，就是你输入的话"（黑底白字，居中，1秒）

镜头7：三者关系（流程图）

[时间码：1:50-2:20]
[镜头类型：流程图]
[视觉指令：无]

**旁白**：
三个东西的关系：LLM是大脑，Token是细胞，Prompt是你喂进去的话。大脑吃细胞，细胞来自你输入的话。

**字幕**：
LLM（大脑）→ Token（细胞）→ Prompt（输入）

**画面描述**：
画面中央展示三个节点：左边"LLM"（大脑图标）、中间"Token"（小方块图标）、右边"Prompt"（输入框图标）。三个节点用箭头串联：Prompt→Token→LLM。箭头上有流动的粒子效果，表示"数据流动"。

**视觉对应物**：
- 三个节点图标
- 箭头串联
- 流动粒子效果

**音效**：
- 节点出现时：轻微"叮"声（连叮3声）
- 箭头连接时：轻微"嗖"声
- 粒子流动时：轻微连续"沙沙"声

镜头8：第一次冲突

[时间码：2:20-2:30]
[镜头类型：对比]
[视觉指令：滑动（从左到右）]

**旁白**：
但问题来了——AI给的50个岗位里，10个是销售、20个是5千薪资、剩下的30个你根本不想去。

**字幕**：
⚠️ 但问题来了

**画面描述**：
画面左侧展示AI给出的50个岗位列表（快速滚动）。右侧突然切入一个红色"X"，划掉"销售""5千薪资""不想去"的岗位。被划掉的岗位变灰，剩下的岗位高亮。

**视觉对应物**：
- 50个岗位列表快速滚动
- 红色"X"划掉
- 被划掉的变灰，剩下的高亮

**音效**：
- 列表滚动时：快速"唰唰"声
- 红色"X"出现时：低沉"咚"声
- 岗位变灰时：轻微"咔嚓"声

镜头9：提示词工程

[时间码：2:30-3:00]
[镜头类型：对比]
[视觉指令：滑动（左右对比）]

**旁白**：
你换种说法："我有3年前端开发经验，希望薪资1万以上，优先一线城市，不考虑销售岗位"——这一次回答明显靠谱多了。这种把需求说清楚的方法，就叫提示词工程。

**字幕**：
提示词工程：把需求说清楚

**画面描述**：
画面分左右两半：左边是第一次输入"帮我找份工作"（短、模糊），右边是第二次输入"3年前端/1万/一线/不销售"（长、具体）。两个输入框用箭头指向各自的AI回答：左边回答是50个混乱岗位，右边回答是10个精准岗位。右边回答框有绿色"✓"标记。

**视觉对应物**：
- 左右两个输入框对比
- 箭头指向各自的回答
- 左边红色"X"，右边绿色"✓"

**音效**：
- 左边出现时：轻微"叮"声
- 右边出现时：轻微"叮"声（音调更高）
- 绿色"✓"出现时：清脆"叮"声

**压屏金句**：
"提示词工程：把需求说清楚"（黑底白字，居中，1秒）

（后续镜头按此格式继续，此处省略以节省篇幅）

十一、系列设计：拆分多期

11.1 分层策略

第1期：基础交互层（7-8个概念，10分钟内）
  └→ 用户"打开就用"时遇到
  └→ LLM / Token / Prompt / 提示词工程 / 上下文 / 系统提示词 / 模型

第2期：进阶能力层（7-8个概念，10-15分钟）
  └→ 用户"传文件/做深度分析"时遇到
  └→ 多模态 / 思维链 / 幻觉 / 知识截止 / RAG / 向量化 / 格式控制

第3期：高级玩法层（7-8个概念，12-15分钟）
  └→ 用户"想靠自己定制AI"时遇到
  └→ API / 工具调用 / Few-shot / 微调 / 多轮对话 / 速率限制 / 流式输出

11.2 系列衔接

每期结尾预告下期，但单期独立：

1
2
3

第1期结尾："上期讲了7个基础概念，这期讲8个深度玩法。关注我，下期一起把AI用到极致。"
第2期结尾："AI用到这里，已经能帮你找工作了。但拿到offer后怎么谈薪？这才是真正赚钱的地方。关注我，下期讲。"
第3期结尾："21个概念讲完了。回头看，AI圈新名词多的本质是——AI在一步步模拟一个'懂你'的资深HR。"

十二、自查清单（v3.0 20条）

写完一篇AI视频脚本后，逐条检查：

☐ 1. 内容讲透了吗？
   └→ 每个概念都回答了"是什么、为什么、怎么用"？
   └→ 有生活类比，不是学术类比？
   └→ 有具体案例，不是泛泛而谈？

☐ 2. 格式让AI能看懂吗？
   └→ 每个段落都有时间码？
   └→ 每个段落都有画面描述？
   └→ 旁白和字幕分离？
   └→ 视觉指令标注清楚？

☐ 3. 时长合理吗？
   └→ 5个概念7-10分钟，7个概念10-15分钟
   └→ >10个概念 = 拆成2期
   └→ 完播率预期 > 30%

☐ 4. 1个完整场景用到底吗？
   └→ 全文只有1个场景（找工作/租房/通勤……）
   └→ 不是多个碎场景拼出来的

☐ 5. 概念是"主角解决问题的工具"吗？
   └→ 把概念全部删掉，主线任务还能完成吗？不能 → 过关
   └→ 能 → 概念是硬塞的，重写

☐ 6. 每个概念都用了"4拍子"吗？
   └→ 体验→命名→类比→重复
   └→ 至少要有"体验+命名"两拍
   └→ 最抽象的概念必须有"类比"和"重复"

☐ 7. 概念之间是"主线任务推进"吗？
   └→ 不是"换话题"式，而是"上一个问题解决→撞上下一个问题"
   └→ 每次受挫必须加来龙去脉（WHY）
   └→ 收尾必须有因果总结

☐ 8. 全文没有"第一/第二/第三"吗？

☐ 9. 场景有6维度细节吗？
   └→ 台词 ✓ 数字 ✓ 取舍 ✓ 情绪词 ✓ 画面细节 ✓ 误解澄清 ✓

☐ 10. 每个概念出场时画面上有对应物吗？
   └→ LLM出现时有"AI大脑"图标
   └→ Token出现时有"文字被切块"动画
   └→ 提示词工程出现时有"前后对比"动效

☐ 11. 每个段落都有镜头块格式吗？
   └→ 时间码、镜头类型、视觉指令、旁白、字幕、画面描述、视觉对应物、音效

☐ 12. 转场选对了吗？
   └→ 概念首次出场用"闪白"
   └→ 对比/并列用"滑动"
   └→ 章节切换用"淡入淡出"
   └→ 突出重点用"缩放"

☐ 13. 字幕和压屏金句做了吗？
   └→ 单屏文字 < 3行
   └→ 每个概念后有1秒"金句压屏"

☐ 14. 节奏变速合理吗？
   └→ 概念定义0.9倍速
   └→ 冲突/反转1.3倍速
   └→ 收尾0.85倍速 + 2秒静默

☐ 15. 10分钟以上做了章节进度条吗？

☐ 16. 开头钩子 + 结尾回扣 形成了循环闭合吗？

☐ 17. 开头有"我也曾……"的共情瞬间吗？
   └→ 必须放开头（钩子之后、场景之前）

☐ 18. 收尾有人设锚点 + 关注动机吗？

☐ 19. 类比体系是统一的吗？
   └→ 有递进关系的概念，优先用统一递进类比

☐ 20. 语言风格有"晚枫味"吗？
   └→ 至少3处黑色幽默/冷笑话/自嘲？
   └→ 至少2处旁征博引（生活场景类比）？
   └→ 没有"众所周知/某种程度上/大概可能"等模糊词？
   └→ 没有"作为一位深耕……多年的专家"等装腔作势开头？
   └→ 自嘲过至少1次？
   └→ 有1处直接怼常见误解的犀利表达？
   └→ 换成其他博主读不了 → 过关

十三、爆款技巧清单（来自调研）

13.1 来自"心中之城"的成功要素

拒绝3分钟快剪：用纪录片的精度做解说，单期3小时也能82%完播
信息分层：表层剧情+深层动机，让用户"看完想再看"
痛点转译公式：将剧中冲突映射当代焦虑
身份认同强化：用"我们""你"等集体叙事
声音修辞：低频共振音色、变速控流、关键台词后2秒静默
视觉符号强化：固定开场+关键台词动态文字压屏

13.2 来自"听风的蚕"的成功要素

跨领域整合：国际关系+经济+科技+历史，放在一个故事里讲
故事化表达：评书式节奏，把复杂信息讲成"段子"
接地气类比：把"半导体产业链"翻译成"打工人升职路径"
持续输出：每天更新1条，建立"日更"心智

13.3 来自抖音超长视频的成功要素

"一口气"叙事：不切成几十个短视频，做完整的长内容
片头自我标注：黑底白字"本视频耗时5个月制作，共计450分钟"——把"长"作为卖点
细节复刻+心理微距：用细节而不是大纲讲故事
拆分发布：450分钟分6期发布，既享受长视频完播率，又获得短视频流量

13.4 来自科普讲解研究的关键结论

故事引入式开场优先于其他开场
不能用"大家好今天我们讲"开场——90%的科普输在开头
开场要"帮助观众发现他们本就好奇的世界"
3秒内必须建立"和我有关"——否则用户划走

13.5 来自短视频时长研究的结论

抖音知识科普60-120秒（头部中位）
抖音口播3-5分钟（爆款集中区间）
B站知识区8-15分钟（深度讲解黄金时长）
超10分钟长视频每90秒设一个钩子
每5-10秒切换画面/字幕——避免用户走神

十四、反面案例库

反面1：场景和概念分离

1 2	❌ "假设你想用AI写周报。" （中间开始：Token是什么、Prompt是什么、LLM是什么……再也不提周报）

问题：场景只是噱头，概念和故事两层皮。

改法：用"用AI找工作"一个场景，所有概念都在这个场景里出场。

反面2：列举式

1	❌ "AI有7个核心概念：第一，LLM是大语言模型。第二，Token是文字单位……"

问题：用户在第2个概念就划走。

改法：用主线任务推进，"先解决A问题→引出A概念→撞上B问题→引出B概念"。

反面3：概念散落在不同场景

1
2
3

❌ 概念1用"写周报"举例
   概念2用"翻译外文"举例
   概念3用"做客服"举例

问题：用户要不断切换心理模型，沉浸感为零。

改法：1个场景用到底，13个概念都在"找工作"里。

反面4：时长硬塞

1 2	❌ 15个概念硬塞进10分钟 → 语速飞快、例子草草、用户跟不上

改法：15个概念=拆2期，每期7-8个概念10-15分钟。

反面5：场景太小

1 2	❌ "假设你想让AI帮你改个字体颜色" → 场景太窄，撑不起7个概念

改法：选能装下本期所有概念的"主线任务型"场景。

反面6：没有画面描述

1 2	❌ 文字稿只有旁白，没有画面描述 → AI不知道生成什么画面，只能瞎配

改法：每个段落必须有画面描述、视觉对应物、视觉指令。

反面7：节奏匀速

1 2	❌ 整篇都是同一种语速 → 没有重点、没有戏剧感

改法：概念定义0.9倍速、冲突1.3倍速、收尾0.85倍速+2秒静默。

反面8：结尾没有回扣

1 2	❌ 结尾："今天我们学习了7个概念，点赞关注。" → 概念学完了，但用户不知道"那然后呢"

改法：结尾呼应开头+主线任务完成+引出下期。

十五、与主创作指南的关系

维度	主指南（AI视频脚本创作指南.md）	本指南v3.0
适用场景	AI生成视频	一个场景讲多个概念
最高优先级	内容讲透+格式让AI看懂	主线任务推进
结构	钩子→数据→反转→锚点→互动	开场→背景→第一波→冲突→第二波→冲突→第三波→收尾
时长	不设上限（按内容量决定）	不设上限（按概念数1.5-2分钟/个计算）
概念密度	从一个点发散	7±2个概念/期
视觉方案	脚本必须含画面描述+视觉指令	本指南重点（AI可读格式）
互动	争议问题+关注动机	关注动机+下期预告
例子	单点举例	1个完整场景用到底

十六、v3.0新增/升级章节速查

章节	v2.2有	v3.0新增/升级	解决的问题
一、重定义	口播稿概念	AI视频脚本概念+核心要求2点	不出镜，用插件生成视频
一、AI可读格式	无	标准格式模板（时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场）	AI看不懂脚本，生成画面瞎配
二、内容要求	口播稿内容	知识类爆款视频共性+从一点发散到一片	内容不够详尽，讲不透
六、AI可读格式	无（只有视觉与剪辑）	镜头块格式+镜头类型说明+视觉指令说明+字幕规范+音效清单	格式不规范，AI理解困难
十、完整示例	文案+分镜表	文案+分镜表→镜头块格式示例（含时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场）	示例不够清晰，AI无法复用
十二、自查清单	20条	20条（第1-2条改为内容+格式检查，其余保留）	内容讲透+格式让AI看懂

更新记录

日期	更新内容	更新人
2026-06-12	初版，提炼"场景叙事讲多概念"方法论	抖音策略师
2026-06-12	新增"三拍子节奏"、"递进式问题链"、"场景细节锚定"、"因果依存排列"、"完整示例"等技法	枫灵
2026-06-15	v2重写版：①放弃硬性时长上限②1个完整场景用到底③视觉方案前置规划（分镜表+视觉化方式A/B/C/D）④主线任务推进式结构⑤4拍子节奏（加"重复"）⑥7大打工人场景库⑦17条新自检项⑧爆款案例技巧汇总	枫灵
2026-06-16	v2.1升级版：①来龙去脉WHY②统一递进类比体系③误解澄清④子概念故事化⑤共情瞬间必须放开头⑥收尾因果总结⑦自查清单17条→19条	枫灵
2026-06-16	v2.2升级版：①新增"程序员晚枫语言风格规范"（9.3节）——黑色幽默/冷笑话/旁征博引/直接犀利/不装腔作势/有主见②自查清单19条→20条（新增风格检查项）	枫灵
2026-06-16	v3.0重定义版：①从"口播稿"重定义为"AI视频脚本"（不出镜，用Hyperframes等插件生成）②核心要求明确为2点：内容讲透+格式让AI看懂③新增AI可读格式标准（时间码/镜头类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场）④完整示例改为镜头块格式⑤自查清单第1-2条改为内容+格式检查⑥场景库从7个扩展到8个	枫灵