19 Jan 2017

Pandas基础

如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而 Pandas 就是字典形式。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。

要使用pandas，首先需要了解他主要两个数据结构：Series和DataFrame。

创建Pandas结构

Series的创建：s = pd.Series([1,3,6,np.nan,44,1])建立的结果如下：

””” 0 1.0 1 3.0 2 6.0 3 NaN 4 44.0 5 1.0 dtype: float64 “””

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引。于是会自动创建一个0到N-1（N为长度）的整数型索引。

DataFrame 的创建：

dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

print(df)
"""
				   a         b         c         d
2016-01-01 -0.253065 -2.071051 -0.640515  0.613663
2016-01-02 -1.147178  1.532470  0.989255 -0.499761
2016-01-03  1.221656 -2.390171  1.862914  0.778070
2016-01-04  1.473877 -0.046419  0.610046  0.204672
2016-01-05 -1.584752 -0.700592  1.487264 -1.778293
2016-01-06  0.633675 -1.414157 -0.277066 -0.442545
"""

DataFrame是一个表格型的数据结构，它包含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的大字典。

我们可以根据每一个不同的索引来挑选数据, 比如挑选 b 的元素:

df2.index:表示的是列的序号，df2.columns表示的是行的序号。还有一些关于DataFrame的小细节，一些属性请看这篇文章

Pandas 选择数据

df['A']或者df[0:3]，这里就可以当作是map来使用就可以了，如果没有特别的设置键的话就是0,1,2...这样的。

loc：同样我们可以使用标签来选择数据 loc, 本例子主要通过标签名字选择某一行数据，或者通过选择某行或者所有行（:代表所有行）然后选其中某一列或几列数据。，

print(df.loc['20130102'])
"""
A    4
B    5
C    6
D    7
Name: 2013-01-02 00:00:00, dtype: int64
"""

print(df.loc[:,['A','B']])
"""
			 A   B
2013-01-01   0   1
2013-01-02   4   5
2013-01-03   8   9
2013-01-04  12  13
2013-01-05  16  17
2013-01-06  20  21
"""

print(df.loc['20130102',['A','B']])
"""
A    4
B    5
Name: 2013-01-02 00:00:00, dtype: int64
"""

iloc：另外我们可以采用位置进行选择 iloc, 在这里我们可以通过位置选择在不同情况下所需要的数据例如选某一个，连续选或者跨行选等操作。

print(df.iloc[3,1])
# 13

print(df.iloc[3:5,1:3])
"""
			 B   C
2013-01-04  13  14
2013-01-05  17  18
"""

print(df.iloc[[1,3,5],1:3])
"""
			 B   C
2013-01-02   5   6
2013-01-04  13  14
2013-01-06  21  22

"""

ix：当然也可以使用混合在使用，比如df.ix[:3,['A','C']]表示的就是：其中选择’A’和’C’的两列，并选择前三行的数据。

同时，可以实验判断来截取数据，df[df.A>8]表示的就是大于8的数据。

Pandas处理缺失值和填充值

有时候我们导入或处理数据, 会产生一些空的或者是 NaN 数据,如何删除或者是填补这些 NaN 数据是一个问题：

建立了一个6X4的矩阵数据并且把两个位置置为空.

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])
df.iloc[0,1] = np.nan
df.iloc[1,2] = np.nan
"""
			 A     B     C   D
2013-01-01   0   NaN   2.0   3
2013-01-02   4   5.0   NaN   7
2013-01-03   8   9.0  10.0  11
2013-01-04  12  13.0  14.0  15
2013-01-05  16  17.0  18.0  19
2013-01-06  20  21.0  22.0  23	np.any(df.isnull()) == True  
# True
"""

如果想直接去掉有 NaN 的行或列, 可以使用 dropna

df.dropna(
	axis=0,     # 0: 对行进行操作; 1: 对列进行操作
	how='any'   # 'any': 只要存在 NaN 就 drop 掉; 'all': 必须全部是 NaN 才 drop 
	) 
"""
			 A     B     C   D
2013-01-03   8   9.0  10.0  11
2013-01-04  12  13.0  14.0  15
2013-01-05  16  17.0  18.0  19
2013-01-06  20  21.0  22.0  23
"""

如果是将 NaN 的值用其他值代替, 比如代替成 0:

df.fillna(value=0)
"""
			 A     B     C   D
2013-01-01   0   0.0   2.0   3
2013-01-02   4   5.0   0.0   7
2013-01-03   8   9.0  10.0  11
2013-01-04  12  13.0  14.0  15
2013-01-05  16  17.0  18.0  19
2013-01-06  20  21.0  22.0  23
"""

判断是否有缺失数据 NaN, 为 True 表示缺失数据:

df.isnull()
"""
				A      B      C      D
2013-01-01  False   True  False  False
2013-01-02  False  False   True  False
2013-01-03  False  False  False  False
2013-01-04  False  False  False  False
2013-01-05  False  False  False  False
2013-01-06  False  False  False  False
"""

检测在数据中是否存在 NaN, 如果存在就返回 True:

np.any(df.isnull()) == True 
# True

Pandas导入导出

pandas可以读取与存取的资料格式有很多种，像csv、excel、json、html与pickle等…

读取csv：data = pd.read_csv('students.csv')

将资料存取成pickle：data.to_pickle('student.pickle')

Pandas plot 出图

.plot()就是直接画出折线图的一种图，当然，Pandas提供了很多重画图的api，不意义说明。

Stats:

comments

Pandas基础

目录

Pandas基础

创建Pandas结构

Pandas 选择数据

Pandas处理缺失值和填充值

Pandas导入导出

Pandas plot 出图

Tags:

Stats:

Share: