OpenAI又搞事情了。

GPT-5正式发布,官方称之为"迄今能力最强的模型"。

作为一个写了6年代码、做了5年自媒体的程序员,我第一时间研究了它的新特性。

我的看法是:这次升级有点猛,但不必焦虑。

说到这儿,想起我自己的一个经历。去年我在做python-office的视频教程时,遇到一个问题:如何自动生成带字幕的教学视频?

我不是天赋异禀,我只是比大多数人更早开始用AI解决实际问题。

当时的流程是:

  1. 录制屏幕
  2. 用语音识别生成字幕文件
  3. 用视频编辑软件添加字幕
  4. 导出视频

整个过程需要3-4个工具,耗时2小时以上。

如果GPT-5的多模态能力普及了,这个流程可能变成:

  1. 录制屏幕
  2. 告诉GPT-5:"帮我把这个视频加上字幕,并生成一个简洁的摘要"
  3. 等几分钟,拿到成品

这就是多模态AI的威力——它把多个工具整合成一个,大幅降低内容生产的门槛。


一、GPT-5的三大核心升级

1. 真正的多模态:文本+图像+音频+视频

之前的GPT-4也能处理图片,但GPT-5实现了真正的"原生多模态":

  • 输入:可以同时输入文本、图片、音频、视频
  • 理解:能理解视频内容,比如"这段视频里的人在做什么"
  • 生成:可以生成图像、音频,甚至简单的视频

这意味着什么?

以前你需要用ChatGPT写文案、用Midjourney画图、用ElevenLabs配音。

现在,一个GPT-5就能搞定全部。

2. 超长上下文:100万token

GPT-5支持100万token的上下文窗口,相当于:

  • 约75万汉字
  • 3本《红楼梦》
  • 整个项目的代码库

实际应用场景:

  • 分析整个项目的代码,找出bug
  • 阅读整本书,然后回答问题
  • 处理长达数小时的会议录音

3. 原生支持电脑操作

这是最让人震惊的功能。

GPT-5可以直接控制你的电脑:

  • 打开浏览器搜索信息
  • 操作Excel处理数据
  • 编写并运行代码
  • 甚至帮你订机票、订酒店

这不是Chatbot,这是真正的AI Agent。


二、对程序员的实际影响

1. 开发效率的质变

以前用AI编程,主要是代码补全和问答。

现在用GPT-5,你可以:

1
2
3
4
5
6
7
你:帮我分析这个项目的架构问题
GPT-5:(读取整个代码库)
我发现3个问题:
1. 用户模块和订单模块耦合度太高
2. 数据库查询有N+1问题
3. 缺少单元测试,覆盖率只有23%
需要我帮你生成重构方案吗?

这相当于请了一个资深架构师,随时待命。

说到这儿,想起我重构python-office的经历。

当时项目代码已经超过3万行,模块之间的依赖关系错综复杂。我想优化架构,但不知道从哪下手。

如果当时有GPT-5,我可以让它:

  1. 读取整个代码库
  2. 分析模块依赖关系
  3. 找出架构层面的问题
  4. 给出重构建议

这能帮我节省大量的分析时间,让我专注于决策和执行。

这就是超长上下文的价值——AI能理解"整个项目",而不是"单个文件"。

2. 技能要求的转变

GPT-5越强大,对程序员的要求就越"高级":

以前的重要技能未来的重要技能
记住API用法设计系统架构
手写算法定义业务问题
调试bug审核AI方案
写文档提炼核心逻辑

简单来说:执行层面的事AI做,决策层面的事人来做。

3. 新的机会点

GPT-5也带来了新的机会:

  • 多模态应用开发:结合文本、图像、音频的创新应用
  • AI Agent开发:让AI能自主完成复杂任务
  • 企业AI集成:把GPT-5的能力嵌入到企业系统中

三、现在该做什么?我的建议

1. 尽快上手体验

不要只是看新闻,要亲自用:

  • 申请GPT-5的API权限
  • 试试它的多模态能力
  • 测试它在你的项目上的表现

只有用过,你才知道它能做什么、不能做什么。

2. 学习多模态开发

GPT-5的多模态能力,需要新的开发思维:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 以前:纯文本交互
response = client.chat.completions.create(
model="gpt-4",
messages=[{"role": "user", "content": "你好"}]
)

# 现在:多模态交互
response = client.chat.completions.create(
model="gpt-5",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "分析这张图片"},
{"type": "image_url", "image_url": {"url": "..."}},
{"type": "audio_url", "audio_url": {"url": "..."}}
]
}]
)

3. 关注AI Agent开发

GPT-5的电脑操作能力,让AI Agent成为可能。

建议学习:

  • Function Calling(函数调用)
  • Tool Use(工具使用)
  • Multi-step Planning(多步规划)

四、写在最后

GPT-5的发布,标志着AI进入了"全能时代"。

它不再只是一个聊天机器人,而是一个能理解世界、能操作工具、能完成任务的智能体。

对于程序员来说,这既是挑战,也是机会。

挑战在于: 纯编码的价值在下降。
机会在于: 能用AI创造价值的程序员,会变得更有价值。

我的态度还是一样:不焦虑,只行动。

AI是杠杆,不是对手。

会用AI的人,会淘汰不会用AI的人。

选择权在你手里。


🎁 福利时间

想深入了解GPT-5的API使用?送你一份**《GPT-5开发指南》**:

  • 多模态API调用示例
  • 常见应用场景代码
  • 性能优化技巧

👉 点击免费领取


📚 想系统学习AI编程?

《30讲 · AI编程训练营》 —— 从0到1掌握AI编程实战。


另外,大家去给小明的小红书👇账号点点赞吧~!



🧧 领个红包再走呗~


程序员晚枫,专注AI编程培训,法律硕士转行的Python程序员,开源项目 python-office 作者。

🎓 AI 编程实战课程

想系统学习 AI 编程?程序员晚枫的 AI 编程实战课 帮你从零上手!