Pandas数据清洗：我用这3种方法，5秒找出并清理所有重复数据

2026-02-28

大家好，我是正在实战各种AI项目的程序员晚枫。

今天继续数据清洗的话题——处理重复值。

重复数据会导致统计结果失真，在分析前必须处理。Pandas提供了强大的工具，让你轻松找出并清理重复项。

创建示例数据

import pandas as pd

df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '张三', '李四', '赵六'],
    '年龄': [25, 30, 35, 25, 30, 28],
    '城市': ['北京', '上海', '广州', '北京', '上海', '深圳'],
    '薪资': [15000, 20000, 18000, 15000, 22000, 16000]
})

print(df)

检测重复值

完全重复的行

# 标记重复行（保留第一个）
print(df.duplicated())

# 统计重复行数量
print(df.duplicated().sum())

# 查看重复的行
duplicates = df[df.duplicated()]
print(duplicates)

# 包括所有重复（不只是后面的）
all_duplicates = df[df.duplicated(keep=False)]
print(all_duplicates)

基于特定列判断重复

# 只看姓名是否重复
print(df.duplicated(subset=['姓名']))

# 看姓名+年龄组合是否重复
print(df.duplicated(subset=['姓名', '年龄']))

# 统计每个姓名的出现次数
print(df['姓名'].value_counts())

删除重复值

方法1：保留第一个（默认）

# 删除完全重复的行，保留第一次出现的
df_clean = df.drop_duplicates()

# 等价于
df_clean = df.drop_duplicates(keep='first')

方法2：保留最后一个

1 2	# 保留最后一次出现的，删除前面的 df_clean = df.drop_duplicates(keep='last')

方法3：全部删除

1 2	# 只要有重复就全部删除（一个不留） df_clean = df.drop_duplicates(keep=False)

基于特定列去重

# 按姓名去重（只看姓名，其他列不管）
df_clean = df.drop_duplicates(subset=['姓名'])

# 按多列组合去重
df_clean = df.drop_duplicates(subset=['姓名', '城市'])

实战场景

场景1：用户注册数据去重

users = pd.DataFrame({
    'user_id': [1, 2, 3, 1, 4, 2],
    'username': ['alice', 'bob', 'charlie', 'alice', 'david', 'bob_new'],
    'email': ['alice@example.com', 'bob@example.com', 
              'charlie@example.com', 'alice@example.com',
              'david@example.com', 'bob2@example.com'],
    'register_time': ['2024-01-01', '2024-01-02', '2024-01-03',
                      '2024-01-05', '2024-01-06', '2024-01-07']
})

# 按user_id去重，保留最新的记录
users['register_time'] = pd.to_datetime(users['register_time'])
users = users.sort_values('register_time')  # 先排序
users_clean = users.drop_duplicates(subset=['user_id'], keep='last')

print("去重后:")
print(users_clean)

场景2：订单数据合并重复

orders = pd.DataFrame({
    'order_id': ['A001', 'A002', 'A001', 'A003', 'A002'],
    'product': ['iPhone', 'iPad', 'iPhone', 'MacBook', 'iPad'],
    'quantity': [1, 2, 1, 1, 3],  # 注意：A002的数量不同
    'price': [6999, 4999, 6999, 9999, 4999]
})

# 策略1：简单去重（可能丢失信息）
orders_simple = orders.drop_duplicates(subset=['order_id'])

# 策略2：合并重复（累加数量）
orders_merged = orders.groupby(['order_id', 'product', 'price'])['quantity'].sum().reset_index()

print("原始数据:")
print(orders)
print("\n合并后:")
print(orders_merged)

高级技巧

标记重复但不删除

# 添加一列标记是否重复
df['is_duplicate'] = df.duplicated(subset=['姓名', '年龄'], keep=False)

# 查看重复组的大小
df['dup_count'] = df.groupby(['姓名', '年龄'])['姓名'].transform('count')

查找最完整的记录

# 有时重复行的某些字段有缺失，想保留最完整的

# 计算每行非空值数量
df['non_null_count'] = df.notnull().sum(axis=1)

# 按姓名分组，保留非空值最多的行
df_clean = (df.sort_values('non_null_count', ascending=False)
              .drop_duplicates(subset=['姓名'], keep='first'))

模糊匹配去重

1
2
3

# 姓名可能有细微差别（如空格、大小写）
df['姓名_clean'] = df['姓名'].str.strip().str.lower()
df_clean = df.drop_duplicates(subset=['姓名_clean'])

完整清洗流程

def clean_duplicates(df, subset=None, strategy='first'):
    """
    清洗重复值的完整函数
    
    Parameters:
        df: DataFrame
        subset: 用于判断重复的列列表
        strategy: 'first', 'last', False(全部删除)
    
    Returns:
        清洗后的DataFrame和报告
    """
    original_count = len(df)
    
    # 检测重复
    if subset:
        dup_mask = df.duplicated(subset=subset, keep=False)
    else:
        dup_mask = df.duplicated(keep=False)
    
    dup_count = dup_mask.sum()
    
    # 删除重复
    df_clean = df.drop_duplicates(subset=subset, keep=strategy)
    
    # 生成报告
    report = {
        '原始行数': original_count,
        '重复行数': dup_count,
        '删除行数': original_count - len(df_clean),
        '剩余行数': len(df_clean)
    }
    
    return df_clean, report

# 使用
df_clean, report = clean_duplicates(df, subset=['姓名', '年龄'], strategy='first')
print("清洗报告:", report)

下节预告

下一课我们将学习数据类型转换，掌握如何正确处理不同类型的数据。

👉 继续阅读：Pandas数据清洗-类型转换与异常值处理

💬 加入学习交流群

扫码加入Python学习交流群，和数千名同学一起进步：

👉 点击加入交流群

群里不定期分享：

数据分析实战案例
Python学习资料
求职面试经验
行业最新动态

推荐：AI Python数据分析实战营

🎁 限时福利：送《利用Python进行数据分析》实体书

👉 点击了解详情

课程导航

上一篇： Pandas数据清洗-处理缺失值

下一篇： Pandas数据清洗-类型转换与异常值处理

PS：重复值处理看似简单，但要根据业务场景选择合适的策略。建议总是先备份数据再操作。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true