AI

PandasのDataFrame作成と結合方法

Pandasは機械学習やディープラーニングを行う上で、データの前処理など頻繁に使用します。 まずは徹底して使いなれるようにしましょう。エクセルを扱うよりもPandas を扱う方が楽だと思えるようになるまでいじり倒しましょう。 DataFrameの作成 まずは、簡単なDataFrame作成を覚えます  >>続きを読む

混同行列と性能評価指標

学習済みモデルが、どの程度良いか判定するする指標を性能評価指標といいます。 そこで登場するのが混同行列です。 混同行列について 余談ですが、普通に「こんどうぎょうれつ」と入力すると「近藤行列」と変換されてしまい、「混同行列」= 「近藤行列」とイメージが刷り込まれているのですが、近藤さんの行列はかなり  >>続きを読む

BeautifulSoupを使ったスクレイピング(1)

BeautifulSoupを使うと簡単にスクレイピングが行えます。 この名前は不思議の国のアリスで出てくる詩からつけられました。 確かに美味しいスープです。 beautifulsoup4の導入 ターミナルなどからpipでインストールします。 pip install beautifulsoup4 Co  >>続きを読む

統計の基礎〜クロス集計2 活用方法 

クロス集計を行って、その内容を確認します。 次の例ではA商品とB商品の評価をクロス集計したものです。 原因と結果に何らかの関係が認められる場合、因果関係があるといいます。 因果関係にあるようなクロス集計表は原因になるものを列として、結果を行にします。 統計では原因側の変数を説明変数と呼び、結果側の変  >>続きを読む

統計の基礎〜クロス集計1 Googleスプレッドシートでピボットテーブル作成

クロス集計とは クロス集計は2つの質的変数の組み合わせで集計して、この2つの変数の関連性を確認するために活用されるものです。 クロス集計表は行と列それぞれの変数の項目を設定して、その組み合わせに対応した度数を集計することで構成されています。 具体的に説明すると、次の様なものです。 A商品とB商品があ  >>続きを読む

統計の基礎〜偏差、平均偏差、標準偏差、分散、標準化、偏差値について

データのバラツキで出てくる言葉で、「偏差」、「平均偏差」「標準偏差」、「分散」とは何を行っているのか復習です。 データのバラツキを見るときにまず基準になるのは、平均です。 平均との関係を視点にして見ていくとわかりやすいと思います。 偏差 偏差はある値と各値の平均との差のことです。 偏差の値はマイナス  >>続きを読む

スプレッドシート(エクセルなど)とPythonで統計分析(3) scikit-learn で単回帰分析の方法

今回はscikit-learn で単回帰分析する方法について解説します。 分析対象は「スプレッドシート(エクセル)とPythonで統計分析(2) 単回帰分析の方法」で行った「1日の最高気温とアイスクリームの販売個数」のデータを使います。 スプレッドシートで単回帰分析を行う方法は「スプレッドシート(エ  >>続きを読む