做不同的事要用不同的模型，别迷信通用大模型

一句话总结：通用大模型不是万能钥匙，做配音、做 PPT、生图、生视频，每件事都有自己更擅长的"专才模型"。选对模型，效率能差十倍。

用 AI 大半年，我最大的一个教训就是：不要迷信通用大模型。

GPT、Claude、Gemini、Qwen 这些顶尖模型，确实什么都能干——但"什么都能干"不等于"什么都干得好"。

写代码，它很在行；
写作文，它也在行；
做 PPT？它只能给你大纲；
配一段有情绪的音频？它基本干不了；
画一张具体的海报？同样干得一般；
做一段 30 秒的产品视频？更是力不从心。

AI 不是"一个模型走天下"，而是一群模型分工合作。

下面我按"做不同的事 → 用不同的模型"这个思路，把我这一年踩过的坑、试过的路整理出来。

一、模型层面：做不同的事，用不同的专才

1. 配音：通用大模型基本没用

你以为 GPT 能"念"出一段文字？它确实能，但你会听到什么？

❌ 一个没有情绪、没有呼吸、没有节奏的塑料音。配上短视频，直接劝退一半观众。

怎么选？

场景	推荐模型	原因
中文短视频 / 口播	CosyVoice 2.0（阿里）	中文韵律强，可克隆音色，支持情绪控制
多语种旁白	ElevenLabs v3	国际最强，29 种语言，能模拟情绪、呼吸、笑声
小说/长音频	Fish Speech / Spark TTS（讯飞）	长文本韵律稳定，不易"念稿感"
真人克隆（要合法授权）	GPT-SoVITS（开源）	30 秒样本即可克隆，复刻度高
商用级电影解说	ElevenLabs + 后处理	行业标杆

关键点：配音这件事，没有"通用大模型能干的"。哪怕是 GPT-4o 的 TTS，和专用 TTS 一比，差距就是"专业播音员 vs 课堂朗读"。

2. 做 PPT：通用大模型只能给"骨架"

让 GPT 帮你做一份 30 页的 PPT，它会给你：

❌ 一份 markdown 大纲
❌ 几句每页的要点
❌ 一段让你自己排版的提示词

它不会真的给你输出 PPT——因为它是文本模型，没有"所见即所得"的能力。

专门做 PPT 的模型/工具：

工具	模型后端	特点
Gamma	GPT + 自研排版引擎	一句话生成完整 PPT，自带漂亮模板
美图 AI PPT	国内自研	中文模板最多，海报级排版
讯飞智文	讯飞星火 + 模板库	内置大量行业 PPT 模板
Tome	GPT-4	偏故事性、视觉化 PPT，适合路演
豆包 / Kimi PPT 模式	自研多模态	国内免费，对中文语境友好

实用建议：如果你只是内部汇报，Gamma/豆包就够；如果你做的是商业路演，手动配合 Gamma + AI 配图效果最好。

3. 生图：通用大模型能画，但画不"专业"

GPT-4o 能画图，DALL·E 3 也能画图——但你见过设计师用 GPT 出商业海报吗？

没有，因为：

❌ 文字渲染糟糕（"OPEN"经常画成"OPNE"）
❌ 风格不可控
❌ 商用版权不清

专门生图的模型：

模型	优势	适用场景
Midjourney v7	画面质感、艺术感无敌	海报、插画、概念图
Stable Diffusion XL（开源）	可本地部署、可训练 LoRA	商用、定制化、批量出图
即梦 4.0（字节）	中文理解好，文字渲染强	海报、电商图、表情包
可灵 AI 1.6	图生视频能力	视频素材准备
Adobe Firefly 3	商用版权清晰	商业发布、企业用图
Recraft v2	矢量图 + 排版	Logo、UI、平面设计

真相比喻：通用大模型画图相当于"普通人随手画两笔"；专门模型相当于"专业设计师出图"。前者能看，后者能商用。

4. 生视频：2024 年才真正可用

去年的 AI 视频，基本都是"动几秒就崩"。

2026 年的 AI 视频，已进入"商用前夜"：

模型	时长	特点
可灵 1.6（快手）	10 秒 × 1080P	国内最强，运镜控制好
Sora（OpenAI）	60 秒	物理一致性顶级
Veo 2（Google）	8 秒 × 4K	画面质感最好
Runway Gen-4	16 秒	镜头控制专业，电影感强
Vidu Q3（生数）	8 秒	中文语义理解强
PixVerse V6	10 秒	多宫格分镜，可一键切镜

实战搭配：

短剧情 / 漫画分镜 → Sora / Veo
产品介绍 / 电商展示 → 可灵 / Vidu
自媒体口播 / vlog 增强 → Runway Gen-4
视频超分 / 老片修复 → Topaz Video AI

二、技巧层面：选对模型后，还要用对 Skill

就算你选了 Midjourney 或者 Gamma，直接打开用，效果也就那样。AI 时代有个新概念叫 Skill —— 相当于 AI 工具里的"专业工作流"。

1. 做 PPT：用对 Skill，1 份抵 10 份

直接问 GPT "帮我做 PPT"，得到的是 5 行大纲。

用 Gamma + 商业路演 Skill：你能得到一份带图表、配图、过渡动画的真正可以路演的 PPT。

几个值得学的 PPT Skill：

Skill	适用场景	上手难度
商业路演模板（Gamma）	投资人路演、季度汇报	⭐
学术汇报 PPT（讯飞智文）	论文答辩、课程作业	⭐
培训课件生成（豆包）	内部培训、对外讲座	⭐⭐
年终总结可视化（Gamma + 即梦配图）	年终汇报	⭐

关键 Skill 步骤：

先给目标受众画像（路演 → 投资人；培训 → 新人）
再给核心结论（3 句话讲清中心思想）
让 AI 生成大纲，你删掉冗余
逐页填充，让 AI 不要"小标题党"
配图用专门模型（不是 GPT）

2. 做图：用对 Skill，"能用"变"能商用"

普通玩家用 Midjourney：得到一张漂亮的图。

专业玩家用 Midjourney + 商用插画 Skill：

✅ 风格统一（30 张图像一个设计师出的）
✅ 主体明确（不会画到一半跑偏）
✅ 可商用版权清晰
✅ 配色符合品牌 VI

3 个我常用的"做图 Skill"：

Skill	作用
品牌色卡 Skill	输入品牌主色 → AI 自动按色卡出图
多视角一致性 Skill	做产品展示：同款产品 5 个角度自动出
文字排版 Skill（国内专用）	输入一段中文 → AI 生成"标题 + 描述"完整海报

三、工具层面：分清 Plan / Build / Craft 三大模式

这是绝大多数人忽略的关键点。

现在的 AI 编程工具（Cursor、Claude Code、Cline、Windsurf）都有至少三种工作模式，用错模式，效率天差地别。

1. Plan 模式：思考，先别动手

什么时候用：

新项目启动，需求不清晰
大型重构，不知道要从哪下手
多人协作，要先对齐思路

Plan 模式干什么：

AI 只和你对话，不写代码
它会问你问题（类似产品经理）
最终输出一份实现方案（架构图 + 分步骤任务）

实战：Cursor 的 Plan Mode / Claude Code 的 --plan

👉 遇到这种场景，你直接按 Enter，AI 就会开始动手——99% 的人都会后悔。

2. Build 模式：动手，全程干活

什么时候用：

方案明确，要写代码了
任务可拆解，一个一个交给 AI

Build 模式干什么：

AI 直接读你的项目、写文件、跑命令
你做"指挥官"，AI 是"工程师"
你随时可以打断、回滚

实战：Cursor 默认模式 / Claude Code 默认模式

⚠️ 警告：Build 模式下，AI 会修改你的真实文件。所以最好用 git 管理，或者在 IDE 里开一个沙箱文件夹。

3. Craft 模式：精雕，一次只改一处

什么时候用：

整体方案没问题，但某段代码"不够好"
你觉得有更优雅的写法
重构某个核心模块

Craft 模式干什么：

AI 只对你指定的那一块代码做手术
不会改动其他部分
自动写单测，保证改完不出错

实战：Cursor 的 Cmd+K / Claude Code 的 --craft（部分客户端支持）

💡 真正的专业玩家 = 70% Craft + 20% Build + 10% Plan。把这三个模式组合好，AI 才能真的当你的"高级工程师"用。

总结：模型用好 + 工具用好 = 生产力起飞

回到开头那句话——做不同的事，用不同的模型。

维度	关键动作
模型	别迷信通用大模型，按场景选专才（CosyVoice / Gamma / Midjourney / 可灵…）
技巧	配 Skill：PPT 用路演 Skill，做图用品牌色卡 Skill
工具	Plan / Build / Craft 模式分开用，不要一脚油门踩到底

三件事都做对之后，你才会真正体会到 AI 比人强的地方：

🪄 1 小时搞定过去 1 天的活
🪄 一个人就是一支队伍
🪄 创意落地不再受限于技能

AI 时代不是"AI 取代人"，而是"会用 AI 的人，取代不会用 AI 的人"。

从今天起，把你手头的任务重新拆一遍：

哪些可以交给"专才模型"？
哪些可以套上 Skill？
哪些需要先 Plan，再 Build？

把这三个问题想清楚，你的 AI 生产力能立刻上一个台阶。

✨ 最后一句话送给你：模型选错，浪费时间；模型选对，省下时间去做更值钱的事——创造。

附录 · 我常用的"模型 + 工具"组合清单

我要做的	模型选择	工具入口	关键 Skill
短视频配音	CosyVoice 2.0 / ElevenLabs	剪映 / 即创	情绪控制 Skill
商业路演 PPT	Gamma + Midjourney 配图	gamma.app	商业路演模板
公众号封面	即梦 4.0 / Midjourney	即梦 / MJ 客户端	品牌色卡 Skill
30 秒产品演示	可灵 1.6 / Sora	可灵平台 / OpenAI	多镜头叙事 Skill
写代码搭项目	Claude / Qwen-Coder	Cursor / Claude Code	Plan → Build → Craft
长文写作	Claude 3.7 / Qwen3.7-Max	Claude.ai / 通义	公众号写作 Skill