# Numpy授業
numpyは「Numerical python」の意味でPythonの数値計算における最も重要な基本パッケージです。

Numpyの呼び出しをimport numpy as npに統一すべきです。
from numpy import *とすることはpythonの組み込み関数と名前空間が重なる可能性が高くなります。そのためスコープは分けておくべきです。

## 線形代数
線形代数における数値のまとめ方にはスカラー、ベクトル、行列、テンソルがあります。

* スカラー ：数値（整数、小数）

* ベクトル：スカラーを直線上に並べたもの

* 行列：スカラーを格子状に並べたもの

* テンソル：スカラーを複数の次元に並べたもの

![代替テキスト](https://itstudio.co/sample/images/matrix3.png)

「%precision 3」はマジックコマンドで、Jupyter Notebookだけで使えるものです。
この場合は小数以下3桁まで表示を表します。なお、pandas.DataFrameの結果には使えません。

In [0]:
import numpy as np
# from numpy import *
%precision 3

'%.3f'

In [0]:
1 / 3

0.333

## Numpy配列作成

In [0]:
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])
print(data)

[ 9  2  3  4 10  6  7  8  1  5]


In [0]:
# data = numpy.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])
# print(data)

In [0]:
# 配列の型の確認
type(data)

numpy.ndarray

### Numpyのデータ型

| データ型`dtype` | 型コード | 説明                                                         |
| :-------------- | :------- | :----------------------------------------------------------- |
| `int8`          | `i1`     | 符号あり8ビット整数(-128 ～ 127)型                                        |
| `int16`         | `i2`     | 符号あり16ビット整数 (-32768 to 32767)型                                       |
| `int32`         | `i4`     | 符号あり32ビット整数(-2147483648 to 2147483647)型                                       |
| `int64`         | `i8`     | 符号あり64ビット整数 (-9223372036854775808 to 9223372036854775807)型                                       |
| `uint8`         | `u1`     | 符号なし8ビット整数 (0 ～ 255)型                                        |
| `uint16`        | `u2`     | 符号なし16ビット整数(0 ～ 65535)型                                       |
| `uint32`        | `u4`     | 符号なし32ビット整数(0 ～ 4294967295)型                                       |
| `uint64`        | `u8`     | 符号なし64ビット整数(0 ～ 18446744073709551615)型                                       |
| `float16`       | `f2`     | 半精度浮動小数点型（符号部1ビット、指数部5ビット、仮数部10ビット） |
| `float32`       | `f4`     | 単精度浮動小数点型（符号部1ビット、指数部8ビット、仮数部23ビット） |
| `float64`       | `f8`     | 倍精度浮動小数点型（符号部1ビット、指数部11ビット、仮数部52ビット） |
| `float128`      | `f16`    | 四倍精度浮動小数点型（符号部1ビット、指数部15ビット、仮数部112ビット） |
| `complex64`     | `c8`     | 複素数（実部・虚部がそれぞれ`float32`）                      |
| `complex128`    | `c16`    | 複素数（実部・虚部がそれぞれ`float64`）                      |
| `complex256`    | `c32`    | 複素数（実部・虚部がそれぞれ`float128`）                     |
| `bool`          | `?`      | ブール型（`True` or `False`）                                |
| `unicode`       | `U`      | Unicode文字列                                                |
| `object`        | `O`      | Pythonオブジェクト型                                         |

* dtype属性はNumPy配列の要素の型が確認できます。
* shape属性はNumPy配列の形状（各次元のサイズ）

In [0]:
# 要素の型の確認
data.dtype

dtype('int64')

In [0]:
# float型を混ぜるとfloat型になる
data1 = np.array([9, 2, 3.9, 4, 10, 6.5, 7, 8.1, 1, 5.4])
data1.dtype

dtype('float64')

In [0]:
# unicode型を混ぜるとunicode型になる
data2 = np.array([1,'4',7,8,1,5])
data2.dtype

dtype('<U21')

In [0]:
# unicode型を混ぜるとunicode型になる 表示結果のU3はUnicode　最大3文字の意味
data3 = np.array([['abc', 'b'], ['3', 'c'], ['f', 'z'],['x', 'm'],['r', 'u']])
data3.dtype

dtype('<U3')

### キャスト
astype('型') を使うとキャストすることができます。

In [0]:
# キャスト
data1 = np.array([9, 2, 3.9, 4, 10, 6.5, 7, 8.1, 1, 5.4])
data4 = data1.astype('int8')
print(data4)
data4.dtype

[ 9  2  3  4 10  6  7  8  1  5]


dtype('int8')

* ndim属性はNumPy配列の次元数を返します。
* size属性はNumPy配列のサイズ（全要素数）

In [0]:
print('dimention:',data3.ndim)
print('size:',data3.size)

dimention: 2
size: 10


### 計算
numpy配列では、算術計算の方法がリストと違います。
この場合、ベクトル演算を行います。つまり、同サイズの配列の場合同位置の要素どうしで計算されます。

In [0]:
data_1 = np.array([1, 2, 3, 4, 5])
data_2 = np.array([6, 7, 8, 9, 10])
print('2倍にする：', data_1 * 2)
print('掛け算：', data_1 * data_2)
print('累乗：', data_1** 2)
print('割り算：', data_2 / data_1)

2倍にする： [ 2  4  6  8 10]
掛け算： [ 6 14 24 36 50]
累乗： [ 1  4  9 16 25]
割り算： [6.    3.5   2.667 2.25  2.   ]


In [0]:
# リストの場合
print('2倍にする：', [1, 2, 3, 4, 5] * 2)
print('足し算：', [1, 2, 3, 4, 5] + [6, 7, 8, 9, 10])

2倍にする： [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
足し算： [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


### ソート

In [0]:
# ソートの処理はインプレースです。
print(data)
data.sort()
print(data)

[ 9  2  3  4 10  6  7  8  1  5]
[ 1  2  3  4  5  6  7  8  9 10]


In [0]:
# 降順
data[::-1].sort()
print(data)

[10  9  8  7  6  5  4  3  2  1]


In [0]:
# Pythonのソート
p_data = [9, 2, 3, 4, 10, 6, 7, 8, 1, 5]
p_data.sort()
print(p_data)
p_data.sort(reverse=True)
print(p_data)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]


# 基本統計量

cumsum():積み上げ計算を行います。要素を足し合わせたものを、配列として出力する。  
1, 1+2, 1+2+3, 1+2+3+4, 1+2+3+4+5



In [0]:
data_1 = np.array([1, 2, 3, 4, 5])
print('Min:',data_1.min())
print('Max:',data_1.max())
print('sum:',data_1.sum())
print('cum:',data_1.cumsum())
# 積み上げ割合の例
print('Ratio:',data_1.cumsum() / data_1.sum())

Min: 1
Max: 5
sum: 15
cum: [ 1  3  6 10 15]
Ratio: [0.067 0.2   0.4   0.667 1.   ]


### 乱数
シードを指定すると何度実行しても同じ乱数が得られることになります。  
Jupyterではセルごとに入れます。
  
seed()の引数の値は何を使ってもよいのですが、42という値が好んで使われる。
意味は色々あるが「生命、宇宙、そして万物についての究極の疑問の答え」に出てきたりする単なる数のお遊びだ。

#### Numpyで作る乱数

| 機能 | 意味 |記述
|:---------|:-------|:-------|
| `rand` | 一様分布。0.0以上、1.0未満 |rand(d0, d1, ..., dn)|
| `random_sample` | 一様分布。0.0以上、1.0未満、rand()と同等だが引数は1つ |random_sample （size = None ）|
| `randint` | 一様分布。任意の範囲の整数 |randint（low、high = None、size = None、dtype = 'l' ）|
| `randn` | 正規分布。平均0、標準偏差1の乱数 |randn(d0, d1, ..., dn)|
| `normal` | 正規分布。任意の平均、標準偏差の乱数 |normal(loc=0.0, scale=1.0, size=None) |
| `binomial` | 二項分布の乱数 | |
| `beta` | ベータ分布の乱数 | |
| `gamma` | ガンマ分布の乱数 | |
| `chisquare` | カイ二乗分布の乱数 | |

* rand()に引数を複数入れることで、配列の次元を増やせる
* rand()とrand_sample()は引数の指定が異なる。rand_sample()は引数はひとつで高次元の配列を作る場合はタプルを使う
* normal()の引数のlocは分布の平均「中心」を、scaleは分布の標準偏差を表す。

In [0]:
import numpy.random as random
# seed作成
random.seed(42)
# 正規分布の乱数　平均0、標準偏差1
rnd_data = random.randn(10)
print(rnd_data)
rnd_data.min()


[ 0.497 -0.138  0.648  1.523 -0.234 -0.234  1.579  0.767 -0.469  0.543]


-0.469

In [0]:
random.seed(42)
rnd_data1 = random.rand(10)
print(rnd_data1)

[0.375 0.951 0.732 0.599 0.156 0.156 0.058 0.866 0.601 0.708]


In [0]:
# random.rand()で高次元の指定も可能
rnd_data12 = random.rand(10, 5, 3)
print(rnd_data12)

[[[0.389 0.271 0.829]
  [0.357 0.281 0.543]
  [0.141 0.802 0.075]
  [0.987 0.772 0.199]
  [0.006 0.815 0.707]]

 [[0.729 0.771 0.074]
  [0.358 0.116 0.863]
  [0.623 0.331 0.064]
  [0.311 0.325 0.73 ]
  [0.638 0.887 0.472]]

 [[0.12  0.713 0.761]
  [0.561 0.771 0.494]
  [0.523 0.428 0.025]
  [0.108 0.031 0.636]
  [0.314 0.509 0.908]]

 [[0.249 0.41  0.756]
  [0.229 0.077 0.29 ]
  [0.161 0.93  0.808]
  [0.633 0.871 0.804]
  [0.187 0.893 0.539]]

 [[0.807 0.896 0.318]
  [0.11  0.228 0.427]
  [0.818 0.861 0.007]
  [0.511 0.417 0.222]
  [0.12  0.338 0.943]]

 [[0.323 0.519 0.703]
  [0.364 0.972 0.962]
  [0.252 0.497 0.301]
  [0.285 0.037 0.61 ]
  [0.503 0.051 0.279]]

 [[0.908 0.24  0.145]
  [0.489 0.986 0.242]
  [0.672 0.762 0.238]
  [0.728 0.368 0.632]
  [0.634 0.536 0.09 ]]

 [[0.835 0.321 0.187]
  [0.041 0.591 0.678]
  [0.017 0.512 0.226]
  [0.645 0.174 0.691]
  [0.387 0.937 0.138]]

 [[0.341 0.113 0.925]
  [0.877 0.258 0.66 ]
  [0.817 0.555 0.53 ]
  [0.242 0.093 0.897]
  [0.9   0.633 0

In [0]:
# random.rand()と同様に使えるが、タプルで高次元の指定も可能
rnd_data2 = random.random_sample(10)
print(rnd_data2)
rnd_data13 = random.random_sample((10,5))
print(rnd_data13)

[0.549 0.692 0.652 0.224 0.712 0.237 0.325 0.746 0.65  0.849]
[[0.658 0.568 0.094 0.368 0.265]
 [0.244 0.973 0.393 0.892 0.631]
 [0.795 0.503 0.577 0.493 0.195]
 [0.722 0.281 0.024 0.645 0.177]
 [0.94  0.954 0.915 0.37  0.015]
 [0.928 0.428 0.967 0.964 0.853]
 [0.294 0.385 0.851 0.317 0.169]
 [0.557 0.936 0.696 0.57  0.097]
 [0.615 0.99  0.14  0.518 0.877]
 [0.741 0.697 0.702 0.359 0.294]]


In [0]:
# randint()の第2引数は次元ではなく終わりの値、第3引数に個数を指定
rnd_data3 = random.randint(2,8,3)
print(rnd_data3)

[3 4 3]


#### ランダムな抽出
rand.choice()
* 第1引数　元の配列
* 第2引数　抽出数
* 第3引数　オプション（重複指定）replace=False

In [0]:
# random.seed(42)
data = np.array([9, 2, 3, 4, 10, 6, 7, 8, 1, 5])
print(random.choice(data,1))
print(random.choice(data,10)) #重複あり、復元抽出
print(random.choice(data,10,replace=False)) # 重複なし、非復元抽出

[1]
[8 5 7 1 4 4 9 8 3 7]
[10  4  1  9  3  6  7  8  5  2]


普通のリストでも使える

In [0]:
# random.seed(42)
data_p = [9, 2, 3, 4, 10, 6, 7, 8, 1, 5]
print(random.choice(data_p,1))


[6]


## 行列
### arange()関数について
np.arangeは、連番や等差数列を生成する関数です。  
同様の関数としてlinspaceがありますが、指定できる要素が異なるのとarangeは１つだけ引数を設定するだけで手軽に数列を生成できる違いがあります。
```
numpy.arange([start, ]stop, [step, ]dtype = None)
```
#### params
| パラメータ名 | 型             | 概要                                                         |
| :----------- | :------------- | :----------------------------------------------------------- |
| `start`      | intまたはfloat | （省略可能）初期値0 生成する等差数列の最初の項を設定します。これを指定しないと0から始まる等差数列が生成されます。 |
| `stop`       | intまたはfloat | 生成する等差数列の終点を指定します。                         |
| `step`       | intまたはfloat | (省略可能) 初期値1 生成される数列の１つ１つの項間における差を指定します。（公差） |
| `dtype`      | dtype          | (省略可能)初期値None 生成される数列のデータ型を指定します。これを指定しないとstartやstopで入力したデータ型がそのまま適用されます。 |

#### returns
指定された等差（初期値は1)を持つ等差数列を要素とするndarrayが返されます。

In [0]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [0]:
array0 = np.arange(3,12,2,dtype=np.float64)
array0

array([ 3.,  5.,  7.,  9., 11.])

### reshape()とshapeプロパティ
reshape()は行列の形を変えます。

shapeプロパティは行列の型を返します。

In [0]:
array1 = np.arange(6).reshape(2,3)
array1

array([[0, 1, 2],
       [3, 4, 5]])

In [0]:
array1 = np.arange(6)
array1.reshape(3,2)

array([[0, 1],
       [2, 3],
       [4, 5]])

In [0]:
a = np.array([[0, 1],
          [2, 3],
          [4, 5]])
a.shape

(3, 2)

In [0]:
np.arange(6).shape

(6,)

In [0]:
array_2 = np.arange(30).reshape(5,3,2)
array_2

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15],
        [16, 17]],

       [[18, 19],
        [20, 21],
        [22, 23]],

       [[24, 25],
        [26, 27],
        [28, 29]]])

### スライシング

In [0]:
array1 = np.arange(9)
print(array1)
array1 = array1.reshape(3,3)
array1

[0 1 2 3 4 5 6 7 8]


array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [0]:
# 個別の要素を取り出し
array1[0][2]

2

![代替テキスト](https://itstudio.co/sample/images/np1.png)

In [0]:
# 上と同様のことができる。Numpyでは通常この記述をする
array1[0,1]

1

#### 複数の値をスライス
![代替テキスト](https://itstudio.co/sample/images/np2.png)

In [0]:
array1[0:2,0:2]

array([[0, 1],
       [3, 4]])

In [0]:
array1[:,0]

array([0, 3, 6])

In [0]:
array1[:,:]

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

## 行列計算

In [0]:
array1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [0]:
array2 = np.arange(9,18).reshape(3,3)
array2

array([[ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17]])

## 行列積
AとBの行列を例にします。
$$
A=\begin{pmatrix} 
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
\end{pmatrix} \\ 
B=\begin{pmatrix} 
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}  \\
\end{pmatrix} \\
$$
AとBの行列積は次のようにします。
$$
AB=\begin{pmatrix} 
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
\end{pmatrix} 
\begin{pmatrix} 
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}  \\
\end{pmatrix} \\
$$
具体的に各要素の計算は次のようになります。
$$
AB=\begin{pmatrix} 
a_{11} b_{11}+a_{12} b_{21}+a_{13} b_{31} \hspace{20px} 
a_{11} b_{12}+a_{12} b_{22}+a_{13} b_{32} \\
a_{21} b_{11} + a_{22} b_{21} +a_{23} b_{31}  \hspace{20px}
a_{21} b_{12} + a_{22} b_{22} +a_{23} b_{32}\\
\end{pmatrix} 
$$
これをまとめると次のようになります。
$$
AB=\begin{pmatrix} 
\displaystyle \sum_{k=1}^3 a_{1k}b_{k1}\hspace{20px} \sum_{k=1}^3 a_{1k}b_{k2}\\
\displaystyle \sum_{k=1}^3 a_{2k}b_{k1}\hspace{20px} \sum_{k=1}^3 a_{2k}b_{k2}
\end{pmatrix} 
$$

具体例
$$
AB=\begin{pmatrix} 
0 & 1 & 2\\
1 & 2 & 3\\
\end{pmatrix} 
\begin{pmatrix} 
2 & 1\\
2 & 1\\
2 & 1 \\
\end{pmatrix} \\
$$
$$
=\begin{pmatrix} 
0\times2+1\times2+2\times2 \hspace{20px} 
0\times1+1\times1+2\times1\\
1\times2 + 2\times2 +3\times2  \hspace{20px}
1\times1 +2\times1 +3\times1\\
\end{pmatrix} 
$$
$$
=\begin{pmatrix} 
6& 3\\
12 & 6\\
\end{pmatrix} 
$$

![代替テキスト](https://itstudio.co/sample/images/matrix2.png)

上記のようなメチャクチャ面倒な計算をNumpyのdot()関数を使うと簡単に計算できます！

In [0]:
# 行列の積
np.dot(array1,array2)

array([[ 42,  45,  48],
       [150, 162, 174],
       [258, 279, 300]])

In [0]:
# 要素どうしの積
array1 * array2

array([[  0,  10,  22],
       [ 36,  52,  70],
       [ 90, 112, 136]])

#### ゼロ行列作成

In [0]:
print(np.zeros((2,3),dtype=np.int64))
print(np.ones((2,3),dtype=np.float64))

[[0 0 0]
 [0 0 0]]
[[1. 1. 1.]
 [1. 1. 1.]]


## 転置
転置とは行と列を入れ替えることです。
転置を使うことで行列積を行えるようになる場合があります。

$$
A=\begin{pmatrix} 
1 & 2 & 3\\
4 & 5 & 6\\
\end{pmatrix} 
$$
転置を行うと次のようになります。
$$
A^T=\begin{pmatrix} 
1& 4 \\
2 & 5 \\
3 & 6
\end{pmatrix} 
$$

In [0]:
a = np.array([[1,2,3],[4,5,6]])
print(a)
print(a.T)

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]


In [0]:
a = np.array([[0,1,2],[1,2,3]])
b = np.array([[0,1,2],[1,2,3]])
# print(np.dot(a,b))
print(b.T)
print(np.dot(a,b.T))

[[0 1]
 [1 2]
 [2 3]]
[[ 5  8]
 [ 8 14]]
