スプレッドシート(エクセルなど)で統計分析(4) 重回帰分析の方法

スプレッドシート(エクセルなど)で統計分析(4) 重回帰分析の方法

線形回帰モデル (Linear Regression) とは、回帰式を用いて、説明変数の値から目的変数の値を予測するモデルです。
説明変数が2変数以上の場合「重回帰分析」と呼ばれます。
重回帰分析を行う上でのポイントは「要因分析」と「予測分析」です。単回帰分析では説明変数が1つだけですから、単純に予測分析を行えばよかったのですが、重回帰分析では説明変数が複数になります。そのためどの変数が目的変数に関連しているのか、またその度合いはどれくらいなのかという要因分析も行う必要が出てきます。

今回は重回帰分析を行って家賃を予測してみます。
通勤時間、築年数、土地面積などを説明変数としてマンションの価格を割り出すものです。

スプレッドシートの分析ツール XLMiner Analysis ToolPakを使った重回帰分析

XLMiner Analysis ToolPak導入方法

Googleのスプレッドシートで回帰分析を行うには別途「XLMiner Analysis ToolPak」を用意する必要があります。
「XLMiner Analysis ToolPak」はGoogle Chromeのアドオン形式で提供されています。
Google Chromeのアドオンで「XLMiner Analysis ToolPak」を検索すると出てきます。これをインストールすればOKです。

XLMiner Analysis ToolPakの使い方

「XLMiner Analysis ToolPak」のインストールを行った後次の操作を行います。

  • スプレッドシートのメニューから「アドオン」を選択
  • 「XLMiner Analysis ToolPak」から「start」の順に選択
  • 項目の「Linear Regression」部分をクリックして入力欄を展開します
  • Input Y Range:に「価格」データ範囲を指定(項目を含む)
  • Input X Range:に「池袋駅まで乗車時間」のデータ範囲と「築後年数」のデータ範囲と「土地面積」のデータ範囲を全て指定(項目を含む)
  • Labelsにチェックを入れて、Output Range:に出力したい場所を指定します

出力結果

t Statはt値と言われるもので、目的変数に対するそれぞれの説明変数の影響度を表します。この値の絶対値が大きいほど影響が大きくなります。
今回の例では以下のようになっていますので築後年数が一番影響することがわかります。

説明変数 t Stat
池袋駅まで乗車時間 -0.4314798974
築後年数  -6.455930221
土地面積  2.434038114

家賃の予測

家賃の予測は線形回帰モデルから以下の計算で求めることができます。

$$
Y = b_1x_1 + b_2x_2 + b_3x_3 + b_kx_k + b_0
$$

今回のデータによる予測結果

項目 池袋駅まで乗車時間 築後年数 土地面積 価格
予想 15 5 180 4449.355106

多重共線性

重回帰分析では、相関の高いデータ同士を説明変数に使用すると重回帰式の解釈を間違う可能性が出てきます。
このことを多重共線性といいます。
これを避けるためには説明変数どおしの相関を確認しておく必要があります。

今回の例では、説明変数どおしの相関に問題はありませんので多重共線性のリスクはありません。