大家好,我是正在实战各种 AI 项目的程序员晚枫。
😫 场景导入:你被Excel折磨过吗?
场景1:周一早上的噩梦
1 | 老板:小王,把上周各区域的销售数据汇总一下,9点开会要用 |
场景2:月度报表的地狱
1 | 月底了,要汇总30个部门的数据: |
如果你也经历过这些,这一讲就是为你准备的。
用AI处理Excel数据,让原本2小时的工作,变成5分钟搞定。
📊 一、常见的脏数据问题
问题1:格式不统一
表现: 同一种数据,多种格式
1 | ❌ 原始数据: |
问题:
- 销售额有数字、有金额格式、有中文数字
- 日期格式五花八门
- 无法直接计算和排序
✅ 清洗后:
1 | 姓名 | 销售额 | 日期 |
问题2:缺失值
表现: 数据不完整
1 | ❌ 原始数据: |
问题:
- 金额缺失,影响统计
- 客户名缺失,无法追溯
- 状态缺失,不知道订单情况
✅ 清洗后:
1 | 订单号 | 客户名 | 金额 | 状态 |
问题3:重复数据
表现: 同一数据出现多次
1 | ❌ 原始数据: |
问题:
- 统计结果翻倍
- 分析结论错误
✅ 清洗后:
1 | 姓名 | 部门 | 销售额 |
问题4:异常值
表现: 明显不合理的数据
1 | ❌ 原始数据: |
问题:
- 影响统计结果
- 可能是输入错误
问题5:数据类型错误
表现: 数字存成文本,日期存成字符串
1 | ❌ 原始数据: |
✅ 清洗后:
1 | 日期(日期型)| 金额(数字) |
🤖 二、用 AI 清洗数据
方法1:ChatExcel(零代码方案)
网址: chatexcel.com
优势: 完全用自然语言操作,零基础也能用
操作步骤:
1 | 步骤1:打开chatexcel.com |
实际操作示例:
1 | 场景:清洗销售数据 |
更多指令示例:
1 | 指令1:删除所有空行 |
性能对比:
| 操作 | 手动操作 | ChatExcel | 效率提升 |
|---|---|---|---|
| 删除重复行(100行) | 5分钟 | 5秒 | 60倍 |
| 格式统一 | 10分钟 | 10秒 | 60倍 |
| 缺失值填充 | 3分钟 | 3秒 | 60倍 |
| 整体清洗(小数据) | 30分钟 | 1分钟 | 30倍 |
方法2:Claude/ChatGPT(交互式方案)
优势: 更灵活,可以处理复杂逻辑
操作步骤:
1 | 步骤1:复制数据到AI对话框 |
提示词模板:
1 | 你是一名数据清洗专家。 |
实际示例:
1 | 你是一名数据清洗专家。 |
AI返回:
1 | 姓名,销售额,日期 |
方法3:Python + AI(批量处理方案)
优势: 可以批量处理大量文件,适合程序员
代码示例:
1 | # 安装依赖:pip install pandas openpyxl python-office |
批量处理多个文件:
1 | import pandas as pd |
用python-office一键合并清洗:
1 | import office |
📐 三、AI 生成 Excel 公式
1. VLOOKUP 查询公式
场景: 从另一个表查询数据
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 完整公式(在表1的D2单元格输入): |
2. SUMIF 条件求和
场景: 按条件求和
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 设置步骤: |
3. COUNTIF 条件计数
场景: 按条件计数
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 公式汇总: |
4. IF 条件判断
场景: 多条件判断
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 完整公式: |
5. 日期处理公式
场景: 提取日期信息
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 公式汇总: |
6. 文本处理公式
场景: 提取和拼接文本
提示词:
1 | 你是一名Excel专家。 |
AI返回:
1 | ✅ 公式汇总: |
🎯 四、实战案例:完整的数据清洗流程
案例:清洗销售数据
场景: 收到一份有各种问题的销售数据
1 | # 步骤1:读取数据 |
清洗前后对比:
1 | 清洗前: |
📊 五、性能对比:手动 vs AI
| 操作 | 手动操作 | AI工具 | Python脚本 | 最佳方案 |
|---|---|---|---|---|
| 删除重复行(100行) | 5分钟 | 5秒 | 1秒 | AI/Python |
| 格式统一 | 10分钟 | 10秒 | 2秒 | Python |
| 缺失值填充 | 5分钟 | 5秒 | 1秒 | AI/Python |
| 批量处理(100个文件) | 5小时 | 不支持 | 30秒 | Python |
| 复杂逻辑清洗 | 30分钟 | 5分钟 | 3分钟 | Python |
| 一次性小数据清洗 | 15分钟 | 1分钟 | 5分钟 | AI |
| 定期批量清洗 | 每次半天 | 不支持 | 10秒 | Python定时任务 |
⚠️ 六、避坑指南
坑1:过度依赖AI,不验证结果
表现: AI清洗完直接用,结果发现重要数据被删了
解决:
- 清洗前备份原始数据
- 清洗后抽样检查
- 对比清洗前后的行数
1 | # 正确做法:备份+验证 |
坑2:不处理异常值
表现: 清洗完数据,统计结果还是不对
原因: 异常值没处理
解决:
1 | # 检查异常值 |
坑3:格式统一不彻底
表现: 清洗后还是有格式问题
原因: 没考虑到所有情况
解决:
1 | # 错误做法:只处理一种格式 |
坑4:数据类型转换错误
表现: 数字列变成文本,无法计算
解决:
1 | # 错误做法:直接转换 |
💡 七、本讲作业
作业1:清洗实战
准备一份有问题的Excel数据(或使用课程提供的数据),完成以下清洗:
- 删除重复行
- 删除空行
- 填充缺失值
- 统一日期格式
- 统一金额格式
- 标记异常值
作业2:公式生成
用AI生成以下公式:
- VLOOKUP公式:从另一个表查询数据
- SUMIF公式:按条件求和
- COUNTIF公式:按条件计数
- IF嵌套公式:多条件判断
- 日期处理公式:提取年月日
作业3:自动化脚本
编写Python脚本,实现批量清洗多个Excel文件。
🎯 本讲总结
核心要点
- 常见脏数据:格式不统一、缺失值、重复、异常、类型错误
- 清洗工具:ChatExcel(零代码)、AI对话(交互式)、Python(批量)
- AI生成公式:VLOOKUP、SUMIF、COUNTIF、IF、日期、文本
- 避坑要点:备份验证、处理异常、彻底统一、容错转换
实用清单
1 | ✅ 清洗流程: |
🔗 课程导航
← 上一讲:AI 提示词入门 | 下一讲:AI 生成数据报表 →
💬 加入学习交流群
👉 点击加入交流群
💬 联系我
| 平台 | 账号/链接 |
|---|---|
| 微信 | 扫码加好友 |
| 微博 | @程序员晚枫 |
| 知乎 | @程序员晚枫 |
| 抖音 | @程序员晚枫 |
| 小红书 | @程序员晚枫 |
| B 站 | Python 自动化办公社区 |
主营业务:AI 编程培训、企业内训、技术咨询
科技不高冷,AI很好用。
下一讲,我们学习如何用AI生成数据报表!
🎓 AI 编程实战课程
想系统学习 AI 编程?程序员晚枫的 AI 编程实战课 帮你从零上手!
- 👉 课程报名:点击这里报名,前3讲免费试听
- 👉 免费试看:B站免费试看前3讲,先看看适不适合自己
