AI视频脚本创作指南(v3.0 重定义版)
核心理念:我们不叫"口播稿"了——因为不出镜。我们用 Hyperframes 这类插件生成视频。本指南产出的内容就是给AI看的"视频蓝图"。
唯一目标:让AI能根据脚本,自动生成画面、字幕、配音、动画、转场——像导演给摄影师下指令一样清晰。
一、重定义:从"口播稿"到"AI视频脚本"
1.1 为什么改?
| 老模式(口播稿) | 新模式(AI视频脚本) |
|---|---|
| 假设有真人出镜 | 假设用插件生成视频 |
| 文案为主,画面为辅 | 文案+画面同等重要,甚至画面更重要 |
| 只考虑"怎么写" | 还要考虑"AI怎么理解、怎么生成" |
| 时长受真人出镜限制 | 时长无限制,内容讲透为止 |
| 传播靠人 | 传播靠内容+平台算法 |
1.2 AI视频脚本的核心要求(只有两点)
第1点:内容要足够详尽、通俗易懂
- 给你一个话题、知识点或概念,要把它解释得足够清楚——尽量让"小白"也能听懂
- 时间上没有限制,可以旁征博引,把背后的原理、应用、相关概念都讲透
- 参考知识类爆款视频的做法:从一个点发散出去,营造出"能讲很多"的感觉
- 不要假设用户有背景知识,每个概念都要讲透
第2点:格式要让AI/插件能看懂
- 每个段落必须有明确的时间码(如 [0:00-0:30])
- 每个段落必须标注画面描述(AI需要知道生成什么画面)
- 必须分离旁白(配音文本)和字幕(屏幕文字)
- 必须标注视觉指令(动画、转场、字体、颜色、音效)
- 概念出场时,必须标注视觉对应物(图标、动画、示意图)
1.3 AI能看懂的标准格式
1 | [时间码:0:00-0:30] |
判断标准:如果把这个脚本直接丢给AI,AI能生成出70%以上的画面——脚本就是合格的。
二、内容要求:讲透,不是讲完
2.1 知识类爆款视频的共性
调研抖音、B站、视频号、YouTube的知识类爆款后,发现它们都有这些特征:
| 特征 | 具体做法 | 代表案例 |
|---|---|---|
| 从一个点发散 | 讲一个概念,顺带引出5个相关概念 | "何同学"讲5G,顺带讲通信史 |
| 原理+应用+案例 | 不只讲"是什么",还讲"为什么"和"怎么用" | "硬核拆解"讲手机芯片 |
| 旁征博引 | 用历史、经济、生活、科学多视角解释 | "听风的蚕"讲国际关系 |
| 故事化 | 把知识点包装成"一个普通人的经历" | "半佛仙人"讲商业 |
| 节奏感 | 每30秒-1分钟一个小高潮,信息密度高 | "米三汉"讲红楼梦 |
| 视觉化 | 抽象概念必配动画/图标/示意图 | 所有知识区头部账号 |
本指南建议:
- 单期视频 3-15 分钟(按内容量决定,不设上限)
- 如果概念多到 15 分钟讲不完,拆成多期,不要硬塞
- 内容密度:每1-2分钟必须有一个"信息增量"(新概念、新案例、新视角)
- 完播率 > 30% 算合格,> 50% 算优秀
2.2 内容结构:从"一点"到"一片"
知识类爆款不是"讲一个概念",而是以这个概念的起点,发散出一个知识网络。
1 | [核心概念]:Token(AI的字数计数器) |
判断标准:一个概念能发散出5-6个相关维度,用户看完会觉得"学到了不止一个东西"。
2.3 内容深度:3岁小孩能听懂(夸张说法)
- 每个概念必须回答:是什么、为什么、怎么用
- 每个原理必须配生活类比(不是学术类比)
- 每个案例必须具体、可复现(不是泛泛而谈)
- 每个结论必须有因果链条(不是跳跃式推理)
禁止:
- ❌ "众所周知,在当前的技术背景下……"(正确的废话)
- ❌ "这个概念很重要,大家要记住"(说教感)
- ❌ "简单来说,就是……"(说了等于没说)
- ❌ 只给定义不给例子
三、场景与故事:一个主角,一条主线
3.1 为什么必须"一个场景用到底"
AI生成视频时,场景切换越少,画面越连贯。如果脚本里场景跳来跳去,AI生成的画面会很碎。
新规则:
整篇脚本只允许有1个完整场景,所有概念都在这个场景里自然长出来。
这个场景必须是大多数用户都接触过的(找工作、租房、写周报、点外卖、去医院……)。
如果一个场景装不下所有概念,拆成多期,不要硬塞。
3.2 场景库:8大经典场景
按"用户接触频率"从高到低排:
| 场景 | 痛点 | 可装概念数 | 适合主题 |
|---|---|---|---|
| 找工作/投简历/面试 | 简历没回复、面试被刷、不会谈薪 | 10-15个 | AI基础+进阶+高级全栈 |
| 租房/搬家/找室友 | 假房源、合同看不懂、被坑 | 8-12个 | 信息识别+工具类 |
| 写周报/写汇报/写复盘 | 写得像流水账、领导说没重点 | 6-8个 | 写作+结构化思维 |
| 点外卖/购物/比价 | 不知道选哪个、怕被坑 | 6-8个 | 决策+推荐算法 |
| 去医院/看病/挂号 | 不会挂号、不懂医生的话 | 6-10个 | 健康+信息识别 |
| 第一次当管理者 | 不会开会、不会分配任务 | 10-12个 | 协作+管理+软技能 |
| 副业/接私活/跳槽谈薪 | 不知道怎么报价 | 8-10个 | 商业+谈判 |
| 第一次用AI干活 | 不知道怎么用、回答太泛 | 8-12个 | AI工具入门 |
3.3 角色代入:用"你"还是"我"
推荐用"你"+"我"混合:
- 场景设定:用"你"——"假设你最近准备找工作"(让用户代入)
- 情绪共鸣:用"我"——"我当时也是这样"(让用户觉得是过来人讲)
- 概念定义:用"它"——"它叫提示词工程"(客观命名)
四、脚本结构:五段式推进
1 | [开场 3-5秒] 钩子 + 场景设定 |
核心变化:
- 概念不是孤立的知识点,是主角解决问题的工具
- 每次受挫必须加来龙去脉(WHY)——让下一个概念出场有必然理由
- 高潮段必须加因果总结——把所有概念的因果关系点破
五、概念讲解:4拍子结构
每个概念出场,必须走4拍:
1 | 第一拍·体验:用户在场景里"遇到"了这个东西 |
第4拍的5种写法:
| 写法 | 示例 |
|---|---|
| 场景回扣 | "所以你再回看刚才那条AI回答……" |
| 现实映射 | "下次你看到SaaS工具按Token收费,就知道这钱花在哪了" |
| 行动指令 | "把这句话记下来:'Token是AI的字数计数器'" |
| 误解澄清 | "那些说'AI不用学就能用'的——前提是你得知道Token在计费" |
| 因果回扣 | "所以AI回答到一半停了,不是它懒,是Token用完了" |
5.1 统一类比体系
如果同一篇稿子的多个概念有递进关系,优先使用统一类比体系——用一个类比的不同阶段串联所有概念。
对比:
1 | ❌ 独立类比(各说各的) |
5.2 子概念故事化
子概念必须用故事/场景/类比引出,而不是直接给定义。
对比:
1 | ❌ 规格说明书式 |
六、AI可读格式:脚本的标准写法
6.1 基本单元:镜头块
每个"镜头块"是AI生成视频的最小单位,包含:
1 | --- |
6.2 镜头类型说明(AI生成参考)
| 镜头类型 | 用途 | AI生成提示 |
|---|---|---|
| 开场 | 视频开头,建立场景 | 生成一个"进入场景"的画面,如打开笔记本电脑、打开APP |
| 图标飞入 | 概念首次出场 | 画面中央空圆圈,图标从下方飞入,概念名浮现 |
| 场景还原 | 展示概念在现实中的样子 | 生成一个具体场景,如"HR桌前摆着人设卡片" |
| 对比 | 展示"前后/对错/有无" | 画面分左右两半,左边旧/错,右边新/对 |
| 动画拆解 | 展示一个东西被拆分成部分 | 整体→爆炸/撕开→逐个高亮讲解 |
| 流程图 | 展示概念之间的关系 | 多个概念节点+箭头串联 |
| 进度条 | 展示进度/状态 | 顶部或底部进度条,已完成的灰色,未完成的彩色 |
| 压屏金句 | 核心概念总结 | 整句话压屏,居中,黑底白字,1秒 |
6.3 视觉指令说明(AI生成参考)
| 视觉指令 | 效果 | 适用场景 |
|---|---|---|
| 淡入 | 从黑屏逐渐亮起来 | 视频开头、章节切换 |
| 闪白 | 画面闪一下白色 | 关键概念首次出场 |
| 滑动 | 画面从左/右滑入 | 对比、并列展示 |
| 缩放 | 画面放大或缩小 | 突出重点、进入细节 |
| 旋转 | 画面旋转 | 概念关系展示(如旋转木马) |
| 溶解 | 画面像溶解一样切换 | 强相关概念之间的过渡 |
| 模糊 | 画面变模糊再变清晰 | 软化场景切换 |
| 形状遮罩 | 用圆形/方形框住重点 | 关键引言、金句 |
6.4 字幕与文字规范
单屏文字不超过3行,且只放关键词、核心短语,不放完整句子。
| 文字类型 | 样式 | 示例 |
|---|---|---|
| 概念名 | 品牌色+加粗+18-24号字 | Token |
| 例子/数字 | 白色普通字 | 6个字、6个Token |
| 情绪词 | 黄色高亮 | "明显靠谱了" |
| 否定/警告 | 红色+警示图标 | "⚠️ 这是编的" |
| 压屏金句 | 黑底白字,居中,1秒 | "Token是AI的字数计数器" |
6.5 音效清单(AI生成参考)
每个概念出场时,最好配一个轻微音效,强化记忆:
| 音效 | 触发时机 | 效果 |
|---|---|---|
| "叮"(清脆) | 概念图标飞入 | 新鲜感、注意力 |
| "嗖"(快速) | 文字/图标快速移动 | 速度感、流畅感 |
| "咔嚓"(轻微) | 东西被拆开/切断 | 拆解感、分析感 |
| "咚"(低沉) | 冲突/转折出现 | 警示感、紧张感 |
| 静默2秒 | 金句之后 | 颅内高潮、留白 |
七、场景细节锚定:6个维度
每个场景必须有6个维度的细节,否则AI生成出来的画面会很空:
| 维度 | 作用 | 示例 |
|---|---|---|
| 具体台词 | 用户有原话可以引用 | "帮我写周报" |
| 具体数字 | 场景可信 | 3年经验、1万薪资 |
| 具体取舍 | 暴露真实诉求 | 不考虑销售、优先一线 |
| 情绪词 | 让用户感同身受 | "明显靠谱了许多" |
| 画面细节 | 让AI知道生成什么画面 | 电脑屏幕、AI头像弹出、输入框特写 |
| 误解澄清 | 主动打消错误认知 | "AI不是帮你不用写,是帮你写得更快" |
八、传播与互动:自媒体特色
8.1 开头3秒的生死线
用户在3秒内决定是否划走。开头必须有:
- 钩子(悬念/反常识/数字/冲突/痛点)
- 共情瞬间("说实话,我也曾是……")
- 场景设定("假设你最近准备找工作")
顺序必须是:钩子 → 共情 → 场景。
8.2 钩子密度与节奏
| 时长 | 钩子密度 | 信息增量 |
|---|---|---|
| 3-5分钟 | 每30秒一个钩子 | 每1分钟一个新概念 |
| 5-10分钟 | 每1分钟一个钩子 | 每2分钟一个新视角 |
| 10-15分钟 | 每2分钟一个钩子 | 每3分钟一个案例 |
| 15分钟以上 | 每3分钟一个钩子 | 每5分钟一个总结 |
钩子的5种形态:
- 悬念钩:"但接下来发生的事,谁都没想到……"
- 反常识钩:"你以为……,其实……"
- 数字钩:"注意,3个数字:3年、1万、一线"
- 冲突钩:"HR突然问了一个问题:……"
- 金句钩:"我把它叫做'AI的字数计数器'"
8.3 互动设计
不要做的事:
- ❌ "点赞关注转发"(命令感,用户反感)
- ❌ "感谢观看"(客套感,无意义)
- ❌ "今天我们学习了……"(上课感)
要做的事:
- ✅ 提问式收尾:"你遇到过AI幻觉吗?评论区聊聊"
- ✅ 预告式收尾:"下期讲'租房避坑的10个AI用法',关注我不错过"
- ✅ 循环闭合:结尾呼应开头
- ✅ 人设锚点:"我是晚枫,写代码的、学过法的、讲AI真话的"
8.4 结尾的3个要素
1 | [要素1] 概念回扣(10秒) |
8.5 循环闭合
结尾要呼应开头。比如:
1 | 开头:"找工作用AI的人,90%都在瞎用。" |
九、人设锚点:程序员晚枫
9.1 晚枫是谁
| 标签 | 具体描述 | 脚本风格要求 |
|---|---|---|
| 程序员 | 写代码出身,搞过开源项目(python-office 38万+下载) | 技术类比要准,不装懂;代码梗自然 |
| 法学院毕业 | 中国政法大学,逻辑训练扎实 | 逻辑链条清晰,因果递进;旁征博引用生活场景 |
| 全网40万+粉丝博主 | 懂内容、懂流量、懂用户 | 知道用户痛点在哪,不说正确的废话 |
| 黑色幽默爱好者 | 喜欢冷笑话、自嘲、反讽 | 严肃话题里突然来一句让人愣一下然后笑的话 |
| 完美主义者 | 对细节要求极高,标准明确 | 不模棱两可,"大概""可能""某种程度上"尽量不用 |
9.2 语言风格5大特征
特征1:直接、不绕弯子
1 | ❌ "众所周知,在当前的数字化转型浪潮中,人工智能正在深刻地改变着我们的工作方式……" |
特征2:黑色幽默+冷笑话
1 | ❌ "AI幻觉是一个需要我们高度重视的问题。" |
特征3:旁征博引(生活化类比)
1 | ❌ "Token是AI的字数计数器。" |
特征4:不装腔作势,接地气
1 | ❌ "作为一位深耕AI领域多年的技术博主……" |
特征5:有主见,不随波逐流
1 | ❌ "小红书图文视频版做了吗?" |
十、完整示例:「找工作13个AI概念」脚本(v3.0格式)
镜头1:开场钩子
1 | [时间码:0:00-0:05] |
镜头2:共情瞬间+场景设定
1 | [时间码:0:05-0:15] |
镜头3:背景设定
1 | [时间码:0:15-0:25] |
镜头4:LLM概念出场
1 | [时间码:0:25-0:55] |
镜头5:Token概念出场
1 | [时间码:0:55-1:25] |
镜头6:Prompt概念出场
1 | [时间码:1:25-1:50] |
镜头7:三者关系(流程图)
1 | [时间码:1:50-2:20] |
镜头8:第一次冲突
1 | [时间码:2:20-2:30] |
镜头9:提示词工程
1 | [时间码:2:30-3:00] |
(后续镜头按此格式继续,此处省略以节省篇幅)
十一、系列设计:拆分多期
11.1 分层策略
1 | 第1期:基础交互层(7-8个概念,10分钟内) |
11.2 系列衔接
每期结尾预告下期,但单期独立:
1 | 第1期结尾:"上期讲了7个基础概念,这期讲8个深度玩法。关注我,下期一起把AI用到极致。" |
十二、自查清单(v3.0 20条)
写完一篇AI视频脚本后,逐条检查:
1 | ☐ 1. 内容讲透了吗? |
十三、爆款技巧清单(来自调研)
13.1 来自"心中之城"的成功要素
- 拒绝3分钟快剪:用纪录片的精度做解说,单期3小时也能82%完播
- 信息分层:表层剧情+深层动机,让用户"看完想再看"
- 痛点转译公式:将剧中冲突映射当代焦虑
- 身份认同强化:用"我们""你"等集体叙事
- 声音修辞:低频共振音色、变速控流、关键台词后2秒静默
- 视觉符号强化:固定开场+关键台词动态文字压屏
13.2 来自"听风的蚕"的成功要素
- 跨领域整合:国际关系+经济+科技+历史,放在一个故事里讲
- 故事化表达:评书式节奏,把复杂信息讲成"段子"
- 接地气类比:把"半导体产业链"翻译成"打工人升职路径"
- 持续输出:每天更新1条,建立"日更"心智
13.3 来自抖音超长视频的成功要素
- "一口气"叙事:不切成几十个短视频,做完整的长内容
- 片头自我标注:黑底白字"本视频耗时5个月制作,共计450分钟"——把"长"作为卖点
- 细节复刻+心理微距:用细节而不是大纲讲故事
- 拆分发布:450分钟分6期发布,既享受长视频完播率,又获得短视频流量
13.4 来自科普讲解研究的关键结论
- 故事引入式开场优先于其他开场
- 不能用"大家好今天我们讲"开场——90%的科普输在开头
- 开场要"帮助观众发现他们本就好奇的世界"
- 3秒内必须建立"和我有关"——否则用户划走
13.5 来自短视频时长研究的结论
- 抖音知识科普60-120秒(头部中位)
- 抖音口播3-5分钟(爆款集中区间)
- B站知识区8-15分钟(深度讲解黄金时长)
- 超10分钟长视频每90秒设一个钩子
- 每5-10秒切换画面/字幕——避免用户走神
十四、反面案例库
反面1:场景和概念分离
1 | ❌ "假设你想用AI写周报。" |
问题:场景只是噱头,概念和故事两层皮。
改法:用"用AI找工作"一个场景,所有概念都在这个场景里出场。
反面2:列举式
1 | ❌ "AI有7个核心概念:第一,LLM是大语言模型。第二,Token是文字单位……" |
问题:用户在第2个概念就划走。
改法:用主线任务推进,"先解决A问题→引出A概念→撞上B问题→引出B概念"。
反面3:概念散落在不同场景
1 | ❌ 概念1用"写周报"举例 |
问题:用户要不断切换心理模型,沉浸感为零。
改法:1个场景用到底,13个概念都在"找工作"里。
反面4:时长硬塞
1 | ❌ 15个概念硬塞进10分钟 |
改法:15个概念=拆2期,每期7-8个概念10-15分钟。
反面5:场景太小
1 | ❌ "假设你想让AI帮你改个字体颜色" |
改法:选能装下本期所有概念的"主线任务型"场景。
反面6:没有画面描述
1 | ❌ 文字稿只有旁白,没有画面描述 |
改法:每个段落必须有画面描述、视觉对应物、视觉指令。
反面7:节奏匀速
1 | ❌ 整篇都是同一种语速 |
改法:概念定义0.9倍速、冲突1.3倍速、收尾0.85倍速+2秒静默。
反面8:结尾没有回扣
1 | ❌ 结尾:"今天我们学习了7个概念,点赞关注。" |
改法:结尾呼应开头+主线任务完成+引出下期。
十五、与主创作指南的关系
| 维度 | 主指南(AI视频脚本创作指南.md) | 本指南v3.0 |
|---|---|---|
| 适用场景 | AI生成视频 | 一个场景讲多个概念 |
| 最高优先级 | 内容讲透+格式让AI看懂 | 主线任务推进 |
| 结构 | 钩子→数据→反转→锚点→互动 | 开场→背景→第一波→冲突→第二波→冲突→第三波→收尾 |
| 时长 | 不设上限(按内容量决定) | 不设上限(按概念数1.5-2分钟/个计算) |
| 概念密度 | 从一个点发散 | 7±2个概念/期 |
| 视觉方案 | 脚本必须含画面描述+视觉指令 | 本指南重点(AI可读格式) |
| 互动 | 争议问题+关注动机 | 关注动机+下期预告 |
| 例子 | 单点举例 | 1个完整场景用到底 |
十六、v3.0新增/升级章节速查
| 章节 | v2.2有 | v3.0新增/升级 | 解决的问题 |
|---|---|---|---|
| 一、重定义 | 口播稿概念 | AI视频脚本概念+核心要求2点 | 不出镜,用插件生成视频 |
| 一、AI可读格式 | 无 | 标准格式模板(时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场) | AI看不懂脚本,生成画面瞎配 |
| 二、内容要求 | 口播稿内容 | 知识类爆款视频共性+从一点发散到一片 | 内容不够详尽,讲不透 |
| 六、AI可读格式 | 无(只有视觉与剪辑) | 镜头块格式+镜头类型说明+视觉指令说明+字幕规范+音效清单 | 格式不规范,AI理解困难 |
| 十、完整示例 | 文案+分镜表 | 文案+分镜表→镜头块格式示例(含时间码/画面类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场) | 示例不够清晰,AI无法复用 |
| 十二、自查清单 | 20条 | 20条(第1-2条改为内容+格式检查,其余保留) | 内容讲透+格式让AI看懂 |
更新记录
| 日期 | 更新内容 | 更新人 |
|---|---|---|
| 2026-06-12 | 初版,提炼"场景叙事讲多概念"方法论 | 抖音策略师 |
| 2026-06-12 | 新增"三拍子节奏"、"递进式问题链"、"场景细节锚定"、"因果依存排列"、"完整示例"等技法 | 枫灵 |
| 2026-06-15 | v2重写版:①放弃硬性时长上限②1个完整场景用到底③视觉方案前置规划(分镜表+视觉化方式A/B/C/D)④主线任务推进式结构⑤4拍子节奏(加"重复")⑥7大打工人场景库⑦17条新自检项⑧爆款案例技巧汇总 | 枫灵 |
| 2026-06-16 | v2.1升级版:①来龙去脉WHY②统一递进类比体系③误解澄清④子概念故事化⑤共情瞬间必须放开头⑥收尾因果总结⑦自查清单17条→19条 | 枫灵 |
| 2026-06-16 | v2.2升级版:①新增"程序员晚枫语言风格规范"(9.3节)——黑色幽默/冷笑话/旁征博引/直接犀利/不装腔作势/有主见②自查清单19条→20条(新增风格检查项) | 枫灵 |
| 2026-06-16 | v3.0重定义版:①从"口播稿"重定义为"AI视频脚本"(不出镜,用Hyperframes等插件生成)②核心要求明确为2点:内容讲透+格式让AI看懂③新增AI可读格式标准(时间码/镜头类型/视觉指令/旁白/字幕/画面描述/视觉对应物/音效/转场)④完整示例改为镜头块格式⑤自查清单第1-2条改为内容+格式检查⑥场景库从7个扩展到8个 | 枫灵 |

