大家好,我是正在实战各种AI项目的程序员晚枫。
今天继续数据清洗的话题——处理重复值。
重复数据会导致统计结果失真,在分析前必须处理。Pandas提供了强大的工具,让你轻松找出并清理重复项。
创建示例数据
1 | import pandas as pd |
检测重复值
完全重复的行
1 | # 标记重复行(保留第一个) |
基于特定列判断重复
1 | # 只看姓名是否重复 |
删除重复值
方法1:保留第一个(默认)
1 | # 删除完全重复的行,保留第一次出现的 |
方法2:保留最后一个
1 | # 保留最后一次出现的,删除前面的 |
方法3:全部删除
1 | # 只要有重复就全部删除(一个不留) |
基于特定列去重
1 | # 按姓名去重(只看姓名,其他列不管) |
实战场景
场景1:用户注册数据去重
1 | users = pd.DataFrame({ |
场景2:订单数据合并重复
1 | orders = pd.DataFrame({ |
高级技巧
标记重复但不删除
1 | # 添加一列标记是否重复 |
查找最完整的记录
1 | # 有时重复行的某些字段有缺失,想保留最完整的 |
模糊匹配去重
1 | # 姓名可能有细微差别(如空格、大小写) |
完整清洗流程
1 | def clean_duplicates(df, subset=None, strategy='first'): |
下节预告
下一课我们将学习数据类型转换,掌握如何正确处理不同类型的数据。
💬 加入学习交流群
扫码加入Python学习交流群,和数千名同学一起进步:
👉 点击加入交流群
群里不定期分享:
- 数据分析实战案例
- Python学习资料
- 求职面试经验
- 行业最新动态
推荐:AI Python数据分析实战营
🎁 限时福利:送《利用Python进行数据分析》实体书
👉 点击了解详情
课程导航
上一篇: Pandas数据清洗-处理缺失值
PS:重复值处理看似简单,但要根据业务场景选择合适的策略。建议总是先备份数据再操作。
