pandas数据清洗与准备

发布时间：2025-08-13 00:06

Pandas数据分析：数据清洗与处理工具 #生活技巧# #工作学习技巧# #编程语言学习路径#

最新推荐文章于 2024-09-18 11:52:30 发布

原创于 2021-02-18 21:27:32 发布 · 255 阅读

· 0

· 0 ·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

这篇博客详细介绍了在数据分析中如何处理缺失值和重复值。使用`isnull()`和`notnull()`可以快速定位缺失值，`fillna()`允许填充缺失值，而`dropna()`则能删除含有缺失值的行或列。对于重复值，`duplicated()`用于检查，`drop_duplicates()`用于删除。`dropna()`和`drop_duplicates()`提供了多种参数选项，如`axis`、`how`、`subset`和`inplace`，以灵活地处理数据。此外，还讲解了`fillna()`的`value`和`method`参数，用于设定填充方式和值。这些方法对于数据预处理至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Null的处理方法

isnull() #返回表明那些是缺失值的布尔值

notnull() #isnull()的反函数

fillna()

dropna()

#查找重复值

data.duplicated()

删除重复值

data.drop_duplicates()

(1)data.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

说明：其中axis通常为0，

how=['any','all']，其中any就是只要有一个是null,那么就drop这一行，all是指一行的所有值为null

subset是根据指定的列名来判断是否为null

inplace;函数返回的是视图，不改变原始值，当 inplace=True时，原始值也会被改变

(2) df.fillna()

df.fillna(

value=None, #字典{列名：填充值}

method=None, #插值方法，ffill（默认）,bfill,ffill将前一个值；来填充null,bfill用后一个值来填充null

axis=0, #

inplace=False,

limit=None,

downcast=None,

)

(3) data.duplicated( subset:[ ], keep= 'first' ) data.drop_duplicates( subset:[ ], keep= 'first' )

keep: 'first' (默认)or 'last'，选择保留重复值的第一个或者最后一个

\

网址：pandas数据清洗与准备 https://www.yuejiaxmz.com/news/view/1229024

⬅️上一篇：家有妙招10万个【全本

➡️下一篇：扫地机器人产品营销推广文案.do

相关内容

Pandas如虎添翼！数据清洗新神器Pyjanitor
Pandas的数据清洗
Pandas 数据处理实战
AI数据清洗：提升效率与准确性的革命性方法
湖南好课优选教育科技有限公司：Python 与Pandas数据处理的搭档
从0到1数据分析实战学习笔记（二）数据清洗
Python pandas 数据清洗（二）
数据清洗：最佳实践与工具推荐
Tableau Prep: 高效数据准备与清洗工具
高效数据准备与清洗工具Trifacta

随便看看