大家好,我是正在实战各种AI项目的程序员晚枫。
欢迎来到统计分析基础部分!
今天学习描述性统计,这是用数字概括数据特征的方法。不需要复杂的数学,掌握几个关键指标,你就能快速理解任何数据集。
为什么需要描述性统计?
想象你面前有一组客户的年龄数据:
1 | [25, 28, 32, 35, 38, 42, 45, 48, 52, 55, 58, 62, 65, 68, 72] |
直接看这些数字很费劲。但如果告诉你:
- 平均年龄:47.3岁
- 中位数:48岁
- 标准差:14.2岁
是不是立刻有了概念?这就是描述性统计的力量。
6大核心指标
1. 集中趋势(数据集中在哪)
均值(Mean)
平均值,所有数据的总和除以个数。
1 | import numpy as np |
中位数(Median)
排序后位于中间的值,不受异常值影响。
1 | median = np.median(data) |
众数(Mode)
出现次数最多的值。
1 | from scipy import stats |
什么时候用什么?
- 数据对称分布 → 用均值
- 有异常值或偏态分布 → 用中位数
- 类别数据 → 用众数
2. 离散程度(数据有多分散)
极差(Range)
最大值减最小值。
1 | range_val = np.max(data) - np.min(data) |
方差(Variance)
每个数据与均值差的平方的平均。
1 | variance = np.var(data, ddof=1) # ddof=1表示样本方差 |
标准差(Standard Deviation)
方差的平方根,与原始数据同单位。
1 | std = np.std(data, ddof=1) |
变异系数(CV)
标准差除以均值,用于比较不同量纲数据的离散程度。
1 | cv = std / mean |
3. 分布形态(数据长什么样)
百分位数(Percentile)
1 | # 四分位数 |
偏度(Skewness)
衡量分布的不对称性。
1 | from scipy import stats |
峰度(Kurtosis)
衡量分布的尖锐程度。
1 | kurtosis = stats.kurtosis(data) |
Pandas一键描述
1 | import pandas as pd |
实战:完整的数据画像
1 | import pandas as pd |
下节预告
下一课我们将学习假设检验入门,学会用数据验证猜想。
💬 加入学习交流群
扫码加入Python学习交流群,和数千名同学一起进步:
👉 点击加入交流群
群里不定期分享:
- 数据分析实战案例
- Python学习资料
- 求职面试经验
- 行业最新动态
推荐:AI Python数据分析实战营
🎁 限时福利:送《利用Python进行数据分析》实体书
👉 点击了解详情
课程导航
下一篇: 假设检验入门-用数据验证你的猜想
PS:描述性统计是数据分析的基础。记住这6个指标:均值、中位数、标准差、分位数、偏度、峰度。
