Pandasの使い方まとめ(機械学習の事前準備でよく使う機能)
機械学習を行う前の事前処理として、よく使うPandasの機能をまとめています。
1.とりあえず読み込んでおきたいライブラリ,
2.ファイルの読み込みと保存,
3.CSVファイルの読み込み,
4.CSVファイルの保存,
5.データの確認,
6.変数別の基本統計量の確認,
7.先頭からの表示,
8.後ろからの表示,
9.列に複数の同じ値がある場合、それぞれの値の数を調べる,
10.欠損値処理,
11.欠損値の削除,
12.欠損値を平均値で埋める,
13.欠損値を0にしてそれ以外の文字列を1にする,
14.欠損値に他の列の値を利用,
15.教師データの分離と削除,
16.教師データ分離,
17.教師データ削除(説明変数作成),
18.ダミー変数作成,
19.ダミー変数作成,
20.2値のカテゴリ変数を数値に変換,
21複数のカテゴリ変数をそのまま数値化する これ、結構使える,
22.複数のカテゴリ変数をそのまま数値化する factorize関数を使わない方法,
23.標準化,
24.学習用データとテストデータの分離,
25.ホールドアウト法,
26.列の値の取得,
27.ユニークな値の取得,
28.ある列の値を条件判定しておいて、Trueの行の別の列の値の平均をとる,
29.PandasからNumpyに変換とその逆,
30.Pandas形式のデータをNumpy形式にする方法,
31.Numpy形式のデータをPandas形式にする方法,
32.要素の頻度(出現回数),
33.ビニング処理(ビン分割),
2019.12.04
AIlecturenote機械学習