python 缺失值方法
导读:缺失值在数据分析中是比较常见的问题,Python提供了多种处理缺失值的方法。本文将介绍几种常见的方法。1. 删除缺失值一种简单粗暴的方法是直接删除含有缺失值的行或列。import pandas as pd import numpy as n...
缺失值在数据分析中是比较常见的问题,Python提供了多种处理缺失值的方法。本文将介绍几种常见的方法。
1. 删除缺失值
一种简单粗暴的方法是直接删除含有缺失值的行或列。
import pandas as pd import numpy as np df = pd.DataFrame({ 'age': [23, 21, np.nan, 25, 31],'name': ['Alice', 'Bob', 'Cathy', 'David', 'Eva']} ) # 删除含有缺失值的行df.dropna(axis=0, inplace=True) print(df) # 删除含有缺失值的列df.dropna(axis=1, inplace=True) print(df)
2. 插值法
插值法是一种通过已有的数据来推测缺失值的方法。常见的插值法包括线性插值、拉格朗日插值等。
# 线性插值df = pd.DataFrame({ 'age': [23, 21, np.nan, 25, 31],'name': ['Alice', 'Bob', 'Cathy', 'David', 'Eva']} ) df.interpolate(method='linear', inplace=True) print(df)
3. 填充值
填充值方法是用固定的值来填补缺失值。一般可以用平均值、中位数等代替缺失值。
# 用平均值填充缺失值df = pd.DataFrame({ 'age': [23, 21, np.nan, 25, 31],'name': ['Alice', 'Bob', 'Cathy', 'David', 'Eva']} ) df.fillna(df.mean(), inplace=True) print(df) # 用中位数填充缺失值df = pd.DataFrame({ 'age': [23, 21, np.nan, 25, 31],'name': ['Alice', 'Bob', 'Cathy', 'David', 'Eva']} ) df.fillna(df.median(), inplace=True) print(df)
总结
Python提供了多种处理缺失值的方法,需要根据具体情况选择合适的方法。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: python 缺失值方法
本文地址: https://pptw.com/jishu/333650.html