# Pandas入門 Seriesの使い方
Pandasは高度なデータ構造を持ち、Pythonデータの整理や分析を簡単に行うことができます。
つまり、データ分析をより簡単に直感的に使うためのものと考えても良さそうです。
基本的にNumpyと同様にforループ処理を好まないところが注意点です。



## Pandasについて

### Pandasのデータ構造
PandasにはSeriesとDataFrameの2種類のデータ構造があります。
* Seriesは1次元の配列のようなもの
* DataFrameはテーブル形式のデータ構造を持つ

## Pandasの使い方

### Pandasのインストール
Pandasのインストールはpipで行えます。
```
pip install pandas
```
**Google　ColaboはすでにPandas がインストールされています。**

### Pandasのインポート

Pandasのインポートでは次のように各場合もあります。
```
from pandas import Series, DataFrame
```

In [None]:
import pandas as pd

## Seriesとは
PandasのSeriesは1次元のNumpy配列のようなものです。
**Numpy配列との違いは、配列と関連付けられたインデックスを持つことです。**

Seriesを作るには、PandasのSeries関数(コンストラクター)を使います。

特にインデックスを明示的に設置しなければ、0から始まるシーケンスになります。そして**キーワード引数のindex**で明示的に指定すれば好きな値をインデックスに用いることができます。

別途時系列の取り扱いの学習で説明しますが、Pandasで時系列を扱う場合、時系列オブジェクトはタイムスタンプによってインデックス付けされたSeriesです。

```
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```
**パラメーター**
* **data:**　配列のような値、Iterableな値、辞書型の値、またはスカラー値  
Seriesに保存されたデータが含まれます。  
バージョン0.23.0で変更：データがdictの場合、Python 3.6以降では引数の順序が維持されます。

* **index:**　配列のようなまたはインデックス（1d）
値はハッシュ可能で、データと同じ長さでなければなりません。一意でないインデックス値を使用できます。指定しない場合、デフォルトでRangeIndex（0、1、2、…、n）になります。辞書とインデックスシーケンスの両方が使用されている場合、インデックスは辞書で見つかったキーをオーバーライドします。
* **dtype:** str、numpy.dtype、またはExtensionDtype、オプション
出力シリーズのデータ​​型。指定しない場合、これはdataから推定されます。その他の使用法については、ユーザーガイドを参照してください。
* **name:**　str、オプション
シリーズに付ける名前。
* **copy:**　ブール値、デフォルトはFalse
通常は入力データを参照するが、コピーして使いたい場合は、Trueにする。

## Seriesデータの作成方法

### インデックスなしのSeriesデータ作成
インデックスを明示的に指定しないで作成した場合、0から始まる数列がインデックスになります。

In [None]:
# Numpy配列の例
import numpy as np
data_np = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
data_np

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

Seriesでリストを作成すると、自動でインデックスが割り振られて**左側に表示されます**。  
通常のリストやNumpy配列とここが違います。

インデックスは指定しなければ自動で0からN-1（Nはデータ数）の番号が割り振られます。

In [None]:
# インデックス指定なしのSeries
sample = pd.Series([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
sample

0     0
1    10
2    20
3    30
4    40
5    50
6    60
7    70
8    80
9    90
dtype: int64

### インデックス指定ありのSeriesデータ作成
indexというキーワード引数で設定

In [None]:
# インデックス指定ありのSeries
sample2 = pd.Series([0, 10, 20, 30, 40, 50, 60, 70, 80, 90],
                                     index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
sample2

a     0
b    10
c    20
d    30
e    40
f    50
g    60
h    70
i    80
j    90
dtype: int64

In [None]:
# インデックス指定ありのSeries
my_index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
sample2 = pd.Series([0, 10, 20, 30, 40, 50, 60, 70, 80, 90],
                                     index=my_index)
sample2

a     0
b    10
c    20
d    30
e    40
f    50
g    60
h    70
i    80
j    90
dtype: int64

#### Pythonのtype関数で型を確認

In [None]:
type(sample2)

pandas.core.series.Series

#### データとインデックスを分離

## Seriesの属性について
Seriesの属性は複数存在します。詳細はドキュメントを参考にしてください。

[pandas.Series属性](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

### values属性とindex属性
* valuesプロパティ：Seriesがもつデータ配列を返す
* indexプロパティ：インデックスオブジェクトを返す

In [None]:
data = sample2.values
data

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [None]:
index = sample2.index
index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

### 1つの要素や複数の要素の指定
index付きのSeriesデータの作成

In [None]:
obj1 = pd.Series([4, 7, -5, 3], index=['No1', 'No2', 'No3', 'No4'])
obj1

No1    4
No2    7
No3   -5
No4    3
dtype: int64

インデックスラベルで個別の要素を取得

In [None]:
print(obj1['No2'])
print(obj1['No4'])

7
3


インデックスをリストで指定することで特定の要素を複数指定できます。
次の2つのコードのように順番を入れ替えて取り出すことができます。

In [None]:
print(obj1[['No1', 'No2', 'No4']])

No1    4
No2    7
No4    3
dtype: int64


In [None]:
print(obj1[['No1', 'No4', 'No2']])

No1    4
No4    3
No2    7
dtype: int64


In [None]:
print(obj1[[1, 3, 2]])

No2    7
No4    3
No3   -5
dtype: int64


In [None]:
obj1

No1    4
No2    7
No3   -5
No4    3
dtype: int64

In [None]:
print(obj1[1:3])

No2    7
No3   -5
dtype: int64


#### 値の変更
個別の値を呼び出して、新たな値を代入すると変更できます。

In [None]:
obj1['No1'] = 2
obj1

No1    2
No2    7
No3   -5
No4    3
dtype: int64

#### 複数の値の変更
代入する値をリストかタプルで渡します。
obj1[['No2', 'No3', 'No4']] = 10, 11, 12　は　obj1[['No2', 'No3', 'No4']] = (10, 11, 12)　と同等

In [None]:
obj1[['No2', 'No3', 'No4']] = (10, 11, 12)
obj1

No1     4
No2    10
No3    11
No4    12
dtype: int64

### 辞書をSeriesに変換できます。
Seriesは辞書に近いものです。従って辞書から簡単にSeriesに変換できます。

In [None]:
sdata = {'Apple':120, 'Orange':80, 'Banana':120, 'Grape':380}
obj2 = pd.Series(sdata)
obj2

Apple     120
Orange     80
Banana    120
Grape     380
dtype: int64

#### インデックスの並び順を変更
辞書を読み込む際に、キーの並び順を変更できます。
辞書にないインデックスを指定するとNANが表示されます。

In [None]:
sdata = {'Apple':120, 'Orange':80, 'Banana':100, 'Grape':380}
name = ['Grape', 'Orange', 'Apple', 'Peach']
obj3 = pd.Series(sdata,name)
obj3

Grape     380.0
Orange     80.0
Apple     120.0
Peach       NaN
dtype: float64

#### 欠損値が存在するかどうか判定
* `isnull()`：NANが True となり、それ以外が False になります。
* `notnull()`：NANが False となり、それ以外が True になります。

In [None]:
pd.isnull(obj3)

Grape     False
Orange    False
Apple     False
Peach      True
dtype: bool

### インデックスの置き換え
インデックスの置き換えは代入で簡単にできます。


In [None]:
obj3.index = ['No1', 'No2', 'No3', 'No4']
obj3

No1    380.0
No2     80.0
No3    120.0
No4      NaN
dtype: float64

## Seriesの参照とコピー

In [None]:
sdata = {'Apple':120, 'Orange':80, 'Banana':100, 'Grape':380}
obj4 = pd.Series(sdata)
obj4

Apple     120
Orange     80
Banana    100
Grape     380
dtype: int64

In [None]:
obj5 = pd.Series(obj4)

In [None]:
obj5['Apple'] = 150
print('obj5', obj5, sep='\n')
print('---------------------')
print('obj4', obj4, sep='\n')

obj5
Apple     150
Orange     80
Banana    100
Grape     380
dtype: int64
---------------------
obj4
Apple     150
Orange     80
Banana    100
Grape     380
dtype: int64


In [None]:
sdata = {'Apple':120, 'Orange':80, 'Banana':100, 'Grape':380}
obj4 = pd.Series(sdata)

In [None]:
obj6 = pd.Series(obj4, copy=True)
obj6

Apple     120
Orange     80
Banana    100
Grape     380
dtype: int64

In [None]:
obj6['Apple'] = 150
print('obj6', obj6, sep='\n')
print('---------------------')
print('obj4', obj4, sep='\n')

obj6
Apple     150
Orange     80
Banana    100
Grape     380
dtype: int64
---------------------
obj4
Apple     120
Orange     80
Banana    100
Grape     380
dtype: int64
