python

Numpy配列の統計関数 mean(0)の意味

Numpy配列の統計関数で平均を求める mean()関数ですが、時々 mean(0)のような記述があります。 これは mean(axis=0)を省略した記述です。 axisは多次元配列に対する引数で、引数axisに0を渡すと列ごと、1を渡すと行ごとの演算結果が得られます。 通常、0は行、1は列を表し  >>続きを読む

機械学習で大量のデータが欲しい時のまとめ

画像系 「機械学習はデータ集めるのが一番大変・・・」 YouTube-8M Open Images Dataset V5 + Extensions arXivTimes まとめサイト 機械学習に使えるデータセットまとめ 機械学習用データセット一覧(フリー素材) | Md.lab 著作権について 進化  >>続きを読む

matplotlibの日本語化

matplotlibの日本語化面倒くさいですね。 バージョンが変わるとまた表示されなくなったりで。。 超簡単な方法がありました。 zerofromlightさんのサイトからの情報です。 次のように、インストールします。 WinやColaboratoryの場合はpip pip3 install jap  >>続きを読む

Google Colaboratoryを使用開始する方法

Google Colaboratoryを使用するための方法です。2019-10-3現在の方法です。 新規でColaboratoryを使うときに困ったら確認してください。 GoogleアカウントでGoogleドライブに入ります。 左上にある「新規」ボタンをクリックします。 「その他」の中にColabo  >>続きを読む

Python〜matplotlibで描くグラフで日本語を使う方法

matplotlibでグラフを描くときにタイトルなどに日本語を使うと文字化けします。 今回は、Colaboratoryでグラフを描くときの日本語の文字化け対策についてです。 まずは日本語表示できるフォントをColaboratoryにインストールします。 !apt-get -y install fon  >>続きを読む

データスヌーピングバイアス(data snooping bias)について

テストデータの中身を確認してみると、面白さそうなパターンを見つけることができます。これは人間のパターン検出能力の高さでもありますが、これをやってしまうと過学習になる恐れがあります。 特定のパターンのための特定の機械学習モデルを選択すると、推定が楽観的になりすぎて期待通りの性能を発揮できない結果になる  >>続きを読む

Python〜join()の使い方

Pythonの文法では、join()メソッドはsplit()メソッドの逆の使い方として、文字を連結するメソッドと紹介されています。 なんとなくそんなものかと通り過ぎてしまいますが、大切なことはjoin()はリストのメソッドではなく、文字列のメソッドだということです。 「join()は文字列に対して呼  >>続きを読む

Python split()と正規表現で不要なテキストを削除

次のようなコードの意味がわからないと質問がありましたので解説します。 尚、コードのtext内容の文章の一部にある「\」はテキスト内容を見やすくするためにテキスト部分を折り返していますが、エラーが出ないための対策です。 import re text = '霞が関。かつての江戸城の南側にあたり  >>続きを読む

Google Colaboratory 猫モードとかコーギーモードについて

Google Colaboratory の設定メニューに「その他」の項目があります。その中に、ちょっと気になるメニューがあります。 コーギーモード 猫モード とりあえず、チェックを入れたらコーギーモードは犬らしきもの、そして猫モードは猫が上のメニューあたりをうろうろし始めます。 パワーレベル 設定メ  >>続きを読む

Pandasデータからヒストグラムが描けない場合にはnumpyのflatten() を使おう

Pandasデータからある項目をスライスしてその値でヒストグラムを作成するときにうまく行かなくて困ったことがありませんでしょうか。 具体的には次のようなデータがあったとします。 このデータからグレードの列を抜き出してヒストグラムを描くとします。 うまく行く場合 次のようにデータをスライスするとser  >>続きを読む