Pandas数据清洗：我总结了5种处理缺失值的策略，数据质量提升90%

2026-02-28

大家好，我是正在实战各种AI项目的程序员晚枫。

今天学习数据清洗中最重要的话题——缺失值处理。

真实世界的数据往往不完整，如何处理缺失值直接影响分析结果的准确性。我将分享5种常用策略，帮你应对各种场景。

认识缺失值

创建示例数据

import pandas as pd
import numpy as np

df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, np.nan, 30, np.nan, 35],
    '薪资': [15000, 12000, np.nan, 10000, np.nan],
    '部门': ['技术', '销售', '技术', np.nan, '销售'],
    '入职日期': pd.to_datetime(['2020-03-15', '2019-07-20', 
                           '2018-11-08', '2021-01-10', np.nan])
})

print(df)

检测缺失值

# 判断是否为缺失值
print(df.isnull())

# 每列缺失值数量
print(df.isnull().sum())

# 每行缺失值数量
print(df.isnull().sum(axis=1))

# 缺失值比例
print(df.isnull().mean() * 100)

# 有缺失值的行
print(df[df.isnull().any(axis=1)])

# 完全没缺失值的行
print(df.dropna())

策略1：删除缺失值

适用场景：缺失值很少（<5%），且随机分布。

# 删除包含任何缺失值的行
df_clean = df.dropna()

# 删除整行都是缺失值的行（通常没用）
df_clean = df.dropna(how='all')

# 删除某列有缺失值的行
df_clean = df.dropna(subset=['薪资'])

# 删除缺失值超过2个的行
df_clean = df.dropna(thresh=3)  # 至少要有3个非缺失值

# 删除缺失值过多的列（比如超过50%）
threshold = len(df) * 0.5
df_clean = df.dropna(axis=1, thresh=threshold)

注意：删除会丢失信息，谨慎使用！

策略2：填充固定值

适用场景：知道缺失值代表什么含义。

# 填充0
df['薪资'].fillna(0, inplace=True)

# 填充字符串
df['部门'].fillna('未知', inplace=True)

# 填充特定值
df['年龄'].fillna(18, inplace=True)

# 不同列填充不同值
values = {'年龄': df['年龄'].median(), 
          '薪资': 0, 
          '部门': '未知'}
df.fillna(value=values, inplace=True)

策略3：统计值填充（最常用）

适用场景：数值型数据，缺失是随机的。

# 均值填充
df['薪资'].fillna(df['薪资'].mean(), inplace=True)

# 中位数填充（对异常值更稳健）
df['年龄'].fillna(df['年龄'].median(), inplace=True)

# 众数填充（适合类别数据）
mode_dept = df['部门'].mode()[0]
df['部门'].fillna(mode_dept, inplace=True)

# 按组分填充（更精确）
# 用同部门的平均薪资填充
df['薪资'] = df.groupby('部门')['薪资'].transform(
    lambda x: x.fillna(x.mean())
)

策略4：前后值填充

适用场景：时间序列数据。

# 前向填充（用前一个有效值）
df['销量'].fillna(method='ffill', inplace=True)

# 后向填充（用后一个有效值）
df['销量'].fillna(method='bfill', inplace=True)

# 限制填充次数（避免连锁填充）
df['销量'].fillna(method='ffill', limit=1, inplace=True)

# 先向前再向后
df['销量'].fillna(method='ffill', inplace=True)
df['销量'].fillna(method='bfill', inplace=True)

策略5：插值法

适用场景：数值有规律变化的数据。

# 线性插值
df['温度'].interpolate(method='linear', inplace=True)

# 多项式插值
df['温度'].interpolate(method='polynomial', order=2, inplace=True)

# 时间序列插值
df.set_index('日期', inplace=True)
df['销量'].interpolate(method='time', inplace=True)

实战：完整清洗流程

import pandas as pd
import numpy as np

# 原始数据
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八'],
    '年龄': [25, np.nan, 30, 28, np.nan, 35],
    '薪资': [15000, 12000, np.nan, 10000, np.nan, 18000],
    '部门': ['技术', '销售', '技术', np.nan, '销售', '技术'],
    '工作年限': [2, np.nan, 5, 3, np.nan, 6]
})

print("原始缺失情况:")
print(df.isnull().sum())

# 步骤1：删除缺失严重的行（缺失超过3个）
df = df[df.isnull().sum(axis=1) <= 2]

# 步骤2：年龄用中位数填充
df['年龄'].fillna(df['年龄'].median(), inplace=True)

# 步骤3：薪资按部门均值填充
df['薪资'] = df.groupby('部门')['薪资'].transform(
    lambda x: x.fillna(x.mean())
)

# 步骤4：部门用众数填充
df['部门'].fillna(df['部门'].mode()[0], inplace=True)

# 步骤5：工作年限根据年龄估算（假设22岁毕业）
df['工作年限'].fillna(df['年龄'] - 22, inplace=True)

print("\n清洗后缺失情况:")
print(df.isnull().sum())
print("\n清洗后的数据:")
print(df)