(4)Python Pandas库

by giser · 2018-11-28

Pandas是一个开源的Python库，用于使用其强大的数据结构进行高性能数据处理和数据分析。 Python和Pandas在各种学术和商业领域都有应用，其中包括金融，经济学，统计学，广告，网络分析等等。使用Pandas，无论数据源如何，我们都可以完成数据处理和分析中的五个典型步骤 – 加载，组织，操作，建模和分析数据。

以下是Pandas的一些重要功能，专门用于数据处理和数据分析工作。

Pandas的主要特点是 –

使用默认和自定义索引的快速高效的DataFrame对象。
用于将数据从不同文件格式加载到内存数据对象的工具。
数据对齐和缺失数据的集成处理。
重新设置和旋转日期集。
大数据集的基于标签的分片，索引和子集。
数据结构中的列可以被删除或插入。
按数据分组进行聚合和转换。
高性能的数据合并和连接。
时间序列功能。

Pandas处理以下三种数据结构 –

维数
系列
数据帧

这些数据结构建立在Numpy数组之上，使其快速高效。

维数和描述说明

考虑处理这些数据结构的最佳方式是:将高维数据结构化为较低维数据结构的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。

数据结构	维数	描述说明
Series	1	1D标记的同质阵列，大小不可变。
DataFrame	2	一般的二维标签，大小可变的表格结构，具有潜在的非均匀类型列。

DataFrame被广泛使用，它是最重要的数据结构。

系列

系列(Series)是一种具有同质数据结构的一维数组。例如，以下系列是整数:10,23,56...的集合。

例如，

10    23    56    17    52    61    73    90    26    72
Shell

系列的要点

同质数据
大小不可变
数据的值可变

数据帧

数据帧(DataFrame)是一个具有异构数据的二维数组。例如，

名字	年龄	性别	得分
Steve	32	男	3.45
Lia	28	女	4.6
Vin	45	男	3.9
Katie	38	女	2.78

该表格表示一个组织的销售团队的总体绩效评级数据。数据以行和列表示。每列代表一个属性，每行代表一个人。

数据类型的列

四列的数据类型如下 –

列名	数据类型
名字	字符串
年龄	数字
性别	字符串
得分	浮点数

数据帧的要点 –

异构数据
大小可变
数据可变

在接下来的章节中，我们将看到很多关于在数据科学工作中使用python的pandas库的例子。

关注右侧公众号，随时随地查看教程
Python数据分析教程目录

(4)Python Pandas库

维数和描述说明

数据帧

相关推荐

You may also like...

公众号

微信群

微信小程序

(4)Python Pandas库

维数和描述说明

数据帧

相关推荐

You may also like...

(5)Python Numpy库

(43)Python卡方检验

(20)Python处理非结构数据

公众号

微信群

微信小程序