描述性统计：我用这6个指标，3分钟看透一组数据的本质

2026-03-01

大家好，我是正在实战各种AI项目的程序员晚枫。

欢迎来到统计分析基础部分！

今天学习描述性统计，这是用数字概括数据特征的方法。不需要复杂的数学，掌握几个关键指标，你就能快速理解任何数据集。

为什么需要描述性统计？

想象你面前有一组客户的年龄数据：

1	[25, 28, 32, 35, 38, 42, 45, 48, 52, 55, 58, 62, 65, 68, 72]

直接看这些数字很费劲。但如果告诉你：

平均年龄：47.3岁
中位数：48岁
标准差：14.2岁

是不是立刻有了概念？这就是描述性统计的力量。

6大核心指标

1. 集中趋势（数据集中在哪）

均值（Mean）

平均值，所有数据的总和除以个数。

import numpy as np
import pandas as pd

data = [25, 28, 32, 35, 38, 42, 45, 48, 52, 55]
mean = np.mean(data)
print(f"均值: {mean:.1f}")

# 注意：均值对异常值敏感
outlier_data = [25, 28, 32, 35, 38, 42, 45, 48, 52, 1000]  # 有个极端值
print(f"有异常值的均值: {np.mean(outlier_data):.1f}")  # 被拉高了

中位数（Median）

排序后位于中间的值，不受异常值影响。

median = np.median(data)
print(f"中位数: {median}")

# 有异常值时更稳健
print(f"有异常值的中位数: {np.median(outlier_data)}")  # 几乎不变

众数（Mode）

出现次数最多的值。

from scipy import stats

mode_result = stats.mode([1, 2, 2, 3, 3, 3, 4])
print(f"众数: {mode_result.mode[0]}, 出现次数: {mode_result.count[0]}")

什么时候用什么？

数据对称分布 → 用均值
有异常值或偏态分布 → 用中位数
类别数据 → 用众数

2. 离散程度（数据有多分散）

极差（Range）

最大值减最小值。

1 2	range_val = np.max(data) - np.min(data) print(f"极差: {range_val}")

方差（Variance）

每个数据与均值差的平方的平均。

1 2	variance = np.var(data, ddof=1) # ddof=1表示样本方差 print(f"方差: {variance:.2f}")

标准差（Standard Deviation）

方差的平方根，与原始数据同单位。

std = np.std(data, ddof=1)
print(f"标准差: {std:.2f}")

# 经验法则（正态分布）
# 约68%的数据在均值±1个标准差内
# 约95%的数据在均值±2个标准差内
# 约99.7%的数据在均值±3个标准差内

变异系数（CV）

标准差除以均值，用于比较不同量纲数据的离散程度。

1 2	cv = std / mean print(f"变异系数: {cv:.2%}")

3. 分布形态（数据长什么样）

百分位数（Percentile）

# 四分位数
q1 = np.percentile(data, 25)  # 第一四分位数（25%分位）
q2 = np.percentile(data, 50)  # 中位数（50%分位）
q3 = np.percentile(data, 75)  # 第三四分位数（75%分位）

iqr = q3 - q1  # 四分位距
print(f"Q1: {q1}, Q2: {q2}, Q3: {q3}, IQR: {iqr}")

偏度（Skewness）

衡量分布的不对称性。

from scipy import stats

skewness = stats.skew(data)
print(f"偏度: {skewness:.2f}")

# 解释：
# > 0：右偏（长尾在右）
# < 0：左偏（长尾在左）
# ≈ 0：对称分布

峰度（Kurtosis）

衡量分布的尖锐程度。

kurtosis = stats.kurtosis(data)
print(f"峰度: {kurtosis:.2f}")

# 解释：
# > 0：比正态分布更尖（厚尾）
# < 0：比正态分布更平（薄尾）
# ≈ 0：接近正态分布

Pandas一键描述

import pandas as pd

df = pd.DataFrame({
    '年龄': [25, 28, 32, 35, 38, 42, 45, 48, 52, 55],
    '收入': [5000, 6000, 7500, 8000, 9000, 10000, 12000, 15000, 18000, 20000]
})

# 一键生成描述性统计
print(df.describe())

# 包含更多指标
print(df.describe(percentiles=[0.05, 0.25, 0.5, 0.75, 0.95]))

# 单独列的详细统计
print(df['年龄'].describe())

实战：完整的数据画像

import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# 模拟用户数据
np.random.seed(42)
users = pd.DataFrame({
    '年龄': np.random.normal(35, 10, 1000).astype(int),
    '消费金额': np.random.lognormal(8, 0.5, 1000)
})

print("=== 用户数据画像 ===\n")

# 1. 基础统计
print("【基础统计】")
print(users.describe())

# 2. 自定义报告
def data_profile(series, name):
    print(f"\n【{name}分析】")
    print(f"  样本量: {len(series)}")
    print(f"  均值: {series.mean():.2f}")
    print(f"  中位数: {series.median():.2f}")
    print(f"  标准差: {series.std():.2f}")
    print(f"  变异系数: {(series.std()/series.mean()):.2%}")
    print(f"  偏度: {stats.skew(series):.2f}")
    print(f"  峰度: {stats.kurtosis(series):.2f}")
    print(f"  最小值: {series.min():.2f}")
    print(f"  最大值: {series.max():.2f}")
    print(f"  极差: {series.max()-series.min():.2f}")

data_profile(users['年龄'], '年龄')
data_profile(users['消费金额'], '消费金额')

# 3. 可视化
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 年龄分布
axes[0, 0].hist(users['年龄'], bins=30, edgecolor='black', alpha=0.7)
axes[0, 0].axvline(users['年龄'].mean(), color='red', linestyle='--', label=f'均值={users["年龄"].mean():.1f}')
axes[0, 0].axvline(users['年龄'].median(), color='green', linestyle='--', label=f'中位数={users["年龄"].median():.1f}')
axes[0, 0].set_title('年龄分布')
axes[0, 0].legend()

# 消费金额分布（对数刻度）
axes[0, 1].hist(np.log(users['消费金额']), bins=30, edgecolor='black', alpha=0.7, color='orange')
axes[0, 1].set_title('消费金额分布（对数）')

# 箱线图
axes[1, 0].boxplot([users['年龄'], users['消费金额']/100], labels=['年龄', '消费金额/100'])
axes[1, 0].set_title('箱线图对比')

# QQ图（检验正态性）
stats.probplot(users['年龄'], dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('QQ图（年龄）')

plt.tight_layout()
plt.savefig('data_profile.png', dpi=300)
plt.show()