# Pandas活用のための基礎




## Pandasのデータ操作の基本

In [None]:
import pandas as pd
import numpy as np

In [None]:
attri_data = {'ID':['100', '101', '102', '103','104'],
              'City':['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
              'Birth_year':[1990, 1989, 1992, 1997, 1982],
              'Name':['Hiroshi', 'Hanako', 'Yuki', 'Satoru', 'Steve']}

attri_data_frame1 = pd.DataFrame(attri_data)
attri_data_frame1

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Hanako
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


## データの抽出
データの抽出は取り出した列に対して比較演算子で比較します。  
その結果ブール値が返されます。

In [None]:
attri_data_frame1['City']

1       Osaka
2       Kyoto
3    Hokkaido
4       Tokyo
Name: City, dtype: object

In [None]:
attri_data_frame1['City'] == 'Tokyo'

1    False
2    False
3    False
4     True
Name: City, dtype: bool

## 論理演算
Bit演算子を使うと論理演算できる

In [None]:
# 論理積（AND）
(attri_data_frame1['City'] == 'Tokyo') & (attri_data_frame1['Name'] == 'Satoru')

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [None]:
# 排他的論理和（XOR）
(attri_data_frame1['City'] == 'Tokyo') ^ (attri_data_frame1['Name'] == 'Satoru')

0     True
1    False
2    False
3     True
4     True
dtype: bool

In [None]:
# 論理和（OR）
(attri_data_frame1['City'] == 'Tokyo') | (attri_data_frame1['Name'] == 'Satoru')

0     True
1    False
2    False
3     True
4     True
dtype: bool

## 条件付き抽出をしてTrueの値だけ表示
Trueが返されたデータだけ表示したい場合は、比較内容をもう一度ブラケットで囲みます。

この方法はNumpyでも同様なことができます。

In [None]:
attri_data_frame1[attri_data_frame1['City'] == 'Tokyo']

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
4,104,Tokyo,1982,Steve


### DataFrame.isin()の使い方

DataFrameの各要素が引数に入れたリストや辞書の値に含まれるかどうか調べてくれます。

**isinで調べる内容が[]に入っていることに注意**


In [None]:
attri_data_frame1[attri_data_frame1['City'].isin(['Tokyo', 'Osaka'])]

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Hanako
4,104,Tokyo,1982,Steve


In [None]:
attri_data_frame1[attri_data_frame1['Birth_year'] < 1990]

Unnamed: 0,ID,City,Birth_year,Name
1,101,Osaka,1989,Hanako
4,104,Tokyo,1982,Steve


## データの削除と結合
axisの値が0なら行で、1なら列を表します。
* 削除：drop
* 結合：merge

In [None]:
attri_data_frame1.drop(['Birth_year'], axis = 1)

Unnamed: 0,ID,City,Name
0,100,Tokyo,Hiroshi
1,101,Osaka,Hanako
2,102,Kyoto,Yuki
3,103,Hokkaido,Satoru
4,104,Tokyo,Steve


In [None]:
attri_data_frame1.drop([0], axis = 0)

Unnamed: 0,ID,City,Birth_year,Name
1,101,Osaka,1989,Hanako
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


In [None]:
attri_data_frame1

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Hanako
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


In [None]:
# 本当に元データを削除したい場合はinplace = True
attri_data_frame1.drop([0], axis = 0, inplace = True)

In [None]:
attri_data_frame1

Unnamed: 0,ID,City,Birth_year,Name
1,101,Osaka,1989,Hanako
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


## DataFrameのマージについて
合致するデータのみ結合されます。

#### merge関数の例



In [None]:
attri_data_frame1

Unnamed: 0,ID,City,Birth_year,Name
1,101,Osaka,1989,Hanako
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


In [None]:
# 別のデータの準備
attri_data2 = {'ID':['100', '101', '102', '105', '107'],
               'Math':[50, 43, 33, 76, 98],
               'English':[90, 30, 20, 50, 30],
               'Sex':['M', 'F', 'F', 'M', 'M']}
attri_data_frame2 = pd.DataFrame(attri_data2)
attri_data_frame2

Unnamed: 0,ID,Math,English,Sex
0,100,50,90,M
1,101,43,30,F
2,102,33,20,F
3,105,76,50,M
4,107,98,30,M


In [None]:
pd.merge(attri_data_frame1,attri_data_frame2)

Unnamed: 0,ID,City,Birth_year,Name,Math,English,Sex
0,101,Osaka,1989,Hanako,43,30,F
1,102,Kyoto,1992,Yuki,33,20,F


## 基本統計量として使える便利な関数

In [None]:
attri_data_frame2['Math'].sum()

300

In [None]:
attri_data_frame2['Math'].mean()

60.0

In [None]:
attri_data_frame2['Math'].max()

98

In [None]:
attri_data_frame2['Math'].min()

33

## DataFrameのグループ化
groupby()を使うとグループ集計できる。

In [None]:
attri_data_frame2.groupby('Sex')['Math'].mean()

Sex
F    38.000000
M    74.666667
Name: Math, dtype: float64

##DataFrameのソート
* sort_index() 　：インデックスでソート
* sort_values()　：値でソート

降順は `ascending=True`

In [None]:
# データの準備
attri_data2 = {'ID':['100', '101', '102', '103', '104'],
               'City':['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
               'Birth_year':[1990, 1989, 1992, 1997, 1982],
               'Name':['Hiroshi', 'Hanako', 'Yuki', 'Satoru', 'Steve']}
attri_data_frame2 = pd.DataFrame(attri_data2)
attri_data_frame_index2 = pd.DataFrame(attri_data2,index=['e', 'b', 'a', 'd', 'c'])
attri_data_frame_index2

Unnamed: 0,ID,City,Birth_year,Name
e,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Hanako
a,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
c,104,Tokyo,1982,Steve


In [None]:
# インデックスでソート
attri_data_frame_index2.sort_index()

Unnamed: 0,ID,City,Birth_year,Name
a,102,Kyoto,1992,Yuki
b,101,Osaka,1989,Hanako
c,104,Tokyo,1982,Steve
d,103,Hokkaido,1997,Satoru
e,100,Tokyo,1990,Hiroshi


In [None]:
attri_data_frame_index2['Birth_year'].sort_values(ascending=False)

d    1997
a    1992
e    1990
b    1989
c    1982
Name: Birth_year, dtype: int64

## DataFramenの値の条件合致の比較

In [None]:
attri_data_frame_index2.isin(['Tokyo'])

Unnamed: 0,ID,City,Birth_year,Name
e,False,True,False,False
b,False,False,False,False
a,False,False,False,False
d,False,False,False,False
c,False,True,False,False


## NaN挿入
意外と知らないで困るNaNの作る方です。

**NaNを値にしたい場合は、np.nanを使います。**

In [None]:
import numpy as np
attri_data_frame_index2['Name'] = np.nan
attri_data_frame_index2

Unnamed: 0,ID,City,Birth_year,Name
e,100,Tokyo,1990,
b,101,Osaka,1989,
a,102,Kyoto,1992,
d,103,Hokkaido,1997,
c,104,Tokyo,1982,
