AI

機械学習で大量のデータが欲しい時のまとめ

画像系 「機械学習はデータ集めるのが一番大変・・・」 YouTube-8M Open Images Dataset V5 + Extensions arXivTimes まとめサイト 機械学習に使えるデータセットまとめ 機械学習用データセット一覧(フリー素材) | Md.lab 著作権について 進化  >>続きを読む

matplotlibの日本語化

matplotlibの日本語化面倒くさいですね。 バージョンが変わるとまた表示されなくなったりで。。 超簡単な方法がありました。 zerofromlightさんのサイトからの情報です。 次のように、インストールします。 WinやColaboratoryの場合はpip pip3 install jap  >>続きを読む

Google Colaboratoryを使用開始する方法

Google Colaboratoryを使用するための方法です。2019-10-3現在の方法です。 新規でColaboratoryを使うときに困ったら確認してください。 GoogleアカウントでGoogleドライブに入ります。 左上にある「新規」ボタンをクリックします。 「その他」の中にColabo  >>続きを読む

Python〜matplotlibで描くグラフで日本語を使う方法

matplotlibでグラフを描くときにタイトルなどに日本語を使うと文字化けします。 今回は、Colaboratoryでグラフを描くときの日本語の文字化け対策についてです。 まずは日本語表示できるフォントをColaboratoryにインストールします。 !apt-get -y install fon  >>続きを読む

データスヌーピングバイアス(data snooping bias)について

テストデータの中身を確認してみると、面白さそうなパターンを見つけることができます。これは人間のパターン検出能力の高さでもありますが、これをやってしまうと過学習になる恐れがあります。 特定のパターンのための特定の機械学習モデルを選択すると、推定が楽観的になりすぎて期待通りの性能を発揮できない結果になる  >>続きを読む

Google Colaboratory 猫モードとかコーギーモードについて

Google Colaboratory の設定メニューに「その他」の項目があります。その中に、ちょっと気になるメニューがあります。 コーギーモード 猫モード とりあえず、チェックを入れたらコーギーモードは犬らしきもの、そして猫モードは猫が上のメニューあたりをうろうろし始めます。 パワーレベル 設定メ  >>続きを読む

Pandasデータからヒストグラムが描けない場合にはnumpyのflatten() を使おう

Pandasデータからある項目をスライスしてその値でヒストグラムを作成するときにうまく行かなくて困ったことがありませんでしょうか。 具体的には次のようなデータがあったとします。 このデータからグレードの列を抜き出してヒストグラムを描くとします。 うまく行く場合 次のようにデータをスライスするとser  >>続きを読む

Pandasのインポートについて

PandasのインポートはPythonのimport文を使うだけです。 import pandas as pd 機械学習を勉強していると時々次のようなインポートが行われています。from import 文を使うと、読み込んだモジュール内の関数にモジュール名をつける必要がなくなります。 import   >>続きを読む

散布図と回帰直線を簡単に描く方法

回帰分析で散布図を描く時、通常は matplotlib を使うと思いますが、seaborn を使うともっと楽に描くことができます。 matplotlib を使った散布図 import pandas as pd import matplotlib.pyplot as plt df = pd.read_  >>続きを読む