23 种 Pandas 核心操作，你需要过一遍吗？

Pandas 是基于 NumPy 构建的库，在数据处理方面可以把它理解为 NumPy 加强版，同时 Pandas 也是一项开源项目。它基于 Cython，因此读取与处理数据非常快，并且还能轻松处理浮点数据中的缺失数据（表示为 NaN）以及非浮点数据。在本文中，基本数据集操作主要介绍了 CSV 与 Excel 的读写方法，基本数据处理主要介绍了缺失值及特征抽取，最后的 DataFrame 操作则主要介绍了函数和排序等方法。

基本数据集操作

（1）读取 CSV 格式的数据集

pd.DataFrame.from_csv(“csv_file”)

或者：

pd.read_csv(“csv_file”)

（2）读取 Excel 数据集

（3）将 DataFrame 直接写入 CSV 文件

如下采用逗号作为分隔符，且不带索引：

（4）基本的数据集特征信息

（5）基本的数据集统计信息

(6) Print data frame in a table

将 DataFrame 输出到一张表：

当「print_table」是一个列表，其中列表元素还是新的列表，「headers」为表头字符串组成的列表。

（7）列出所有列的名字

基本数据处理

（8）删除缺失数据

返回一个 DataFrame，其中删除了包含任何 NaN 值的给定轴，选择 how=「all」会删除所有元素都是 NaN 的给定轴。

（9）替换缺失数据

使用 value 值代替 DataFrame 中的 to_replace 值，其中 value 和 to_replace 都需要我们赋予不同的值。

（10）检查空值 NaN

检查缺失值，即数值数组中的 NaN 和目标数组中的 None/NaN。

（11）删除特征

axis 选择 0 表示行，选择表示列。

（12）将目标类型转换为浮点型

将目标类型转化为数值从而进一步执行计算，在这个案例中为字符串。

（13）将 DataFrame 转换为 NumPy 数组

（14）取 DataFrame 的前面「n」行

（15）通过特征名取数据

DataFrame 操作

（16）对 DataFrame 使用函数

该函数将令 DataFrame 中「height」行的所有值乘上 2：

或：

（17）重命名行

下面代码会重命名 DataFrame 的第三行为「size」：

（18）取某一行的唯一实体

下面代码将取「name」行的唯一实体：

（19）访问子 DataFrame

以下代码将从 DataFrame 中抽取选定了的行「name」和「size」：

（20）总结数据信息

（21）给数据排序

（22）布尔型索引

以下代码将过滤名为「size」的行，并仅显示值等于 5 的行：

（23）选定特定的值

以下代码将选定「size」列、第一行的值：

原文链接：https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38

基本数据集操作

基本数据处理

DataFrame 操作

Recommend

Mutate AWS GraphQL using AWS Lambda

Neuromation新研究：利用卷积神经网络进行儿童骨龄评估

Half of Audited JavaScript Projects Contained a Vulnerability

GitHub - MalwareCantFly/Vba2Graph: Vba2Graph - Generate call graphs from VBA cod...

beite 倍特深岩寒泉天然泉水 3L6桶+野芭蕉泉水叮咚 4.5L4桶 38.8元（换购赠品）_...

凤祥食品鸡翅中 500g*3件+知味观杭州小笼 250g 49.5元包邮（99.5-50）_苏宁易购优惠

刺客信条大革命和枭雄的剧情怎么样？ - 知乎

谷歌迎头赶上，打不开中国市场，亚马逊的音箱生意面临危机

漂在旧金山 - 阮一峰的网络日志

【六旬老人三亚公交车上泄愤脚踹司机一审获刑3年】2018年1月，因购票问题一62岁老人...

About Joyk