IT工房 ブログ

Pandasのカテゴリ型

Pandasのカテゴリ型をうまく使うとことで、シンプルで効率の良いデータ加工ができます。 unique()関数 Seriesデータを作成 import numpy as np import pandas as pd values = pd.Series(['Apple',  >>続きを読む

scikit-learnで教師あり学習

教師あり学習とは、説明変数から目的変数を予測するモデルを作成するために、正解の目的変数から学習する方法です。 そのため、必ず説明変数と同時に正解となるような目的変数を用意する必要があります。 ちなみに、教師なし学習は正解例となる目的変数がない学習のことです。 *パラメータの表はscikit-lear  >>続きを読む

グリッドサーチで便利なnp.logspace関数

グリッドサーチで桁の違う小数などを使いたい場合、np.logspace関数が便利です。 例 np.logspace(-3, 2, num=6) 10の-3乗から10の2乗の範囲を6等分した配列 [0.001, 0.01, 0.1, 1, 10, 100] を作成します。 乳がんデータ良性、悪性判定で  >>続きを読む

Pythonでローカルサーバーを作る

pythonを使った、超シンプルなローカルサーバーの作成方法です。 Macの場合の例です。 事前に適当な場所に適当な名前のフォルダを作成しておいて、ターミナルのcdコマンドで移動しておきます。 次に、作成したフォルダ内に「index.html」ファイルを作成しておきます。 同じフォルダ内に新規ファイ  >>続きを読む

Pandasの使い方まとめ(機械学習の事前準備でよく使う機能)

目次 機械学習の事前準備に使うPandasの機能import文とりあえず読み込んでおきたいライブラリファイルの読み込みと保存CSVファイルの読み込みCSVファイルの保存データの確認変数別の基本統計量の確認先頭からの表示後ろからの表示列に複数の同じ値がある場合、それぞれの値の数を調べる欠損値処理欠損値  >>続きを読む

Pythonで日付と時間を扱う方法

datetimeモジュール datetimeモジュールでは、以下4個のメインオブジェクトを定義しています。 年⽉⽇を対象にするdate 時分秒を対象にするtime ⽇時と時刻両⽅を対象にするdatetime ⽇付と時刻の間隔を対象にするtimedelta 同じような名前のオブジェクトが含まれています  >>続きを読む

PandasのDataFrameで作成した表のデータを省略しない方法

PandasのDataFrameで表を作成した時大量のデータがあると途中が省略されて表示されます。 たまには省略せずに全てのデータを見たい場合もあるでしょう。 その場合は次の記述で表示できます。 データの表示を省略なしで表示する方法 それぞれ第2引数が表示行数 行の省略を無くす pd.set_op  >>続きを読む

Numpy配列の統計関数 mean(0)の意味

Numpy配列の統計関数で平均を求める mean()関数ですが、時々 mean(0)のような記述があります。 これは mean(axis=0)を省略した記述です。 axisは多次元配列に対する引数で、引数axisに0を渡すと列ごと、1を渡すと行ごとの演算結果が得られます。 通常、0は行、1は列を表し  >>続きを読む