OpenAI又搞事情了。
GPT-5正式发布,官方称之为"迄今能力最强的模型"。
作为一个写了6年代码、做了5年自媒体的程序员,我第一时间研究了它的新特性。
我的看法是:这次升级有点猛,但不必焦虑。
说到这儿,想起我自己的一个经历。去年我在做python-office的视频教程时,遇到一个问题:如何自动生成带字幕的教学视频?
我不是天赋异禀,我只是比大多数人更早开始用AI解决实际问题。
当时的流程是:
- 录制屏幕
- 用语音识别生成字幕文件
- 用视频编辑软件添加字幕
- 导出视频
整个过程需要3-4个工具,耗时2小时以上。
如果GPT-5的多模态能力普及了,这个流程可能变成:
- 录制屏幕
- 告诉GPT-5:"帮我把这个视频加上字幕,并生成一个简洁的摘要"
- 等几分钟,拿到成品
这就是多模态AI的威力——它把多个工具整合成一个,大幅降低内容生产的门槛。
一、GPT-5的三大核心升级
1. 真正的多模态:文本+图像+音频+视频
之前的GPT-4也能处理图片,但GPT-5实现了真正的"原生多模态":
- 输入:可以同时输入文本、图片、音频、视频
- 理解:能理解视频内容,比如"这段视频里的人在做什么"
- 生成:可以生成图像、音频,甚至简单的视频
这意味着什么?
以前你需要用ChatGPT写文案、用Midjourney画图、用ElevenLabs配音。
现在,一个GPT-5就能搞定全部。
2. 超长上下文:100万token
GPT-5支持100万token的上下文窗口,相当于:
- 约75万汉字
- 3本《红楼梦》
- 整个项目的代码库
实际应用场景:
- 分析整个项目的代码,找出bug
- 阅读整本书,然后回答问题
- 处理长达数小时的会议录音
3. 原生支持电脑操作
这是最让人震惊的功能。
GPT-5可以直接控制你的电脑:
- 打开浏览器搜索信息
- 操作Excel处理数据
- 编写并运行代码
- 甚至帮你订机票、订酒店
这不是Chatbot,这是真正的AI Agent。
二、对程序员的实际影响
1. 开发效率的质变
以前用AI编程,主要是代码补全和问答。
现在用GPT-5,你可以:
1 | 你:帮我分析这个项目的架构问题 |
这相当于请了一个资深架构师,随时待命。
说到这儿,想起我重构python-office的经历。
当时项目代码已经超过3万行,模块之间的依赖关系错综复杂。我想优化架构,但不知道从哪下手。
如果当时有GPT-5,我可以让它:
- 读取整个代码库
- 分析模块依赖关系
- 找出架构层面的问题
- 给出重构建议
这能帮我节省大量的分析时间,让我专注于决策和执行。
这就是超长上下文的价值——AI能理解"整个项目",而不是"单个文件"。
2. 技能要求的转变
GPT-5越强大,对程序员的要求就越"高级":
| 以前的重要技能 | 未来的重要技能 |
|---|---|
| 记住API用法 | 设计系统架构 |
| 手写算法 | 定义业务问题 |
| 调试bug | 审核AI方案 |
| 写文档 | 提炼核心逻辑 |
简单来说:执行层面的事AI做,决策层面的事人来做。
3. 新的机会点
GPT-5也带来了新的机会:
- 多模态应用开发:结合文本、图像、音频的创新应用
- AI Agent开发:让AI能自主完成复杂任务
- 企业AI集成:把GPT-5的能力嵌入到企业系统中
三、现在该做什么?我的建议
1. 尽快上手体验
不要只是看新闻,要亲自用:
- 申请GPT-5的API权限
- 试试它的多模态能力
- 测试它在你的项目上的表现
只有用过,你才知道它能做什么、不能做什么。
2. 学习多模态开发
GPT-5的多模态能力,需要新的开发思维:
1 | # 以前:纯文本交互 |
3. 关注AI Agent开发
GPT-5的电脑操作能力,让AI Agent成为可能。
建议学习:
- Function Calling(函数调用)
- Tool Use(工具使用)
- Multi-step Planning(多步规划)
四、写在最后
GPT-5的发布,标志着AI进入了"全能时代"。
它不再只是一个聊天机器人,而是一个能理解世界、能操作工具、能完成任务的智能体。
对于程序员来说,这既是挑战,也是机会。
挑战在于: 纯编码的价值在下降。
机会在于: 能用AI创造价值的程序员,会变得更有价值。
我的态度还是一样:不焦虑,只行动。
AI是杠杆,不是对手。
会用AI的人,会淘汰不会用AI的人。
选择权在你手里。
🎁 福利时间
想深入了解GPT-5的API使用?送你一份《GPT-5开发指南》:
- 多模态API调用示例
- 常见应用场景代码
- 性能优化技巧
👉 点击免费领取
📚 想系统学习AI编程?
《30讲 · AI编程训练营》 —— 从0到1掌握AI编程实战。
另外,大家去给小明的小红书👇账号点点赞吧~!


🧧 领个红包再走呗~


程序员晚枫,专注AI编程培训,法律硕士转行的Python程序员,开源项目 python-office 作者。

