大家好,我是正在实战各种AI项目的程序员晚枫。
今天继续数据清洗——类型转换与异常值处理。
数据类型不对会导致计算错误,异常值会影响统计结果。掌握这些技巧,让你的数据质量更上一层楼。
常见数据类型问题
1 | import pandas as pd |
数值类型转换
字符串转数值
1 | # 基础转换 |
整数 vs 浮点数
1 | # float转int(会截断小数) |
日期时间转换
基础转换
1 | # 自动识别格式 |
时间戳转换
1 | # Unix时间戳(秒) |
提取日期组件
1 | df['年'] = df['日期'].dt.year |
类别型数据(Category)
为什么用Category?
1 | # 节省内存 |
有序类别
1 | from pandas.api.types import CategoricalDtype |
异常值检测与处理
统计方法
1 | # Z-score方法 |
业务规则方法
1 | # 根据业务知识判断 |
异常值处理策略
1 | # 策略1:删除 |
文本数据处理
清理空白字符
1 | df['姓名'] = df['姓名'].str.strip() # 去除首尾空格 |
统一大小写
1 | df['邮箱'] = df['邮箱'].str.lower() # 邮箱统一小写 |
提取信息
1 | # 提取手机号前3位(运营商) |
完整清洗流程示例
1 | def clean_dataframe(df): |
下节预告
下一课我们将学习数据变换-行列操作,掌握如何重塑数据结构。
💬 加入学习交流群
扫码加入Python学习交流群,和数千名同学一起进步:
👉 点击加入交流群
群里不定期分享:
- 数据分析实战案例
- Python学习资料
- 求职面试经验
- 行业最新动态
推荐:AI Python数据分析实战营
🎁 限时福利:送《利用Python进行数据分析》实体书
👉 点击了解详情
课程导航
上一篇: Pandas数据清洗-处理重复值
下一篇: Pandas数据变换-行列操作
PS:类型转换是数据清洗的关键步骤。记住:先检查再转换,errors=’coerce’是好帮手。
