在Python中的数据清理

Python中数据清理的技巧与方法' (Python zhōng shùjù qīnglǐ de jìqiǎo yǔ fāngfǎ)

使用Panda库在Python中进行主数据清理

Scott Graham on Unsplash

今天,我将向您展示如何使用pandas实现数据清理。

数据:

本文中使用的数据集来自于open-rice香港

常见问题 | OpenRice 香港

www.openrice.com

您可以在此处找到原始数据:

https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv

Pandas是一个可以作为pd缩写导入的Python库。

在pandas中,有不同的方式或形式来清理数据集,而今天,我将只关注三个轨道。

Image by Author

上图说明了我今天将要实现的三种数据清理方式。

探索数据集

import pandas as pd

df=pd.read_csv('data/open-rice.csv')df.head()
Top 5 rows of dataframe: photo by author

以上,数据集已导入到jupyter notebook并保存在一个Pandas数据框内。

以上是前5个字段,所以当您键入df. Head()时,默认显示数据框中的前5行。

在pandas中,数据框是一个二维标记结构。数据框可以类比为SQL表或Excel电子表格。

df.columns
字段名称在数据框中:作者提供的图片
df.info()