こんにちは。サメハダです。
今回はエクセルで重回帰分析を行います。
この記事は、以下のようなニーズをお持ちの方に役立ちます。
- 細かいことはさておき、まずは操作手順だけ知りたい。
- 表示された結果をなんとなくでも理解したい。
- 分析結果をもとに予測値を計算したい。

エクセルを使えば難しい統計分析もかんたんにできるよね!

さっそくやってみよう!
重回帰分析を行うための事前準備
重回帰分析はリボンにある「データ分析」ボタンから実行します。お使いのエクセルに最初からこのボタンが表示されていないときは、まず次の操作「アドイン追加」を行います。

アドイン追加
②「オプション」を選択
③アドインを選択
④「OK」を選択

⑥「OK」を選択


これで事前準備は完了です。
重回帰分析の操作手順
使用するサンプルデータ
次のような不動産の物件価格とその属性(広さ、築年数、駅までの時間距離)データを使用します。

この物件価格(Y)を広さ(X1)、築年数(X2)、駅までの時間(X3)で説明する回帰式をエクセルで計算してみます。
分析手順









結果の読み方
分析結果の表がサクっと手に入りました。これらの数値の中で、重要な指標をチェックしていきましよう。以下、分析画像にある補正R2(自由度調整済決定係数)、有意F(F値)、P-値(P値)です。

さっそく、指標について説明します。
見るべき指標1:自由度調整済決定係数
決定係数は全体の分析結果がデータにどの程度当てはまっているかの妥当性を表す指標です。数値は0~1の間をとり、1に近い方が妥当性が高いです。
そして、自由度とはデータ数のことです。データ数が多いときの方が少ないときと比べて、分析の精度が高くなります。この自由度の大小を統計的に調整した決定係数が、自由度調整済決定係数です。
決定係数よりは自由度調整済決定係数の方が、実態をより適切に表していると考えられます。
- 0~1の数値をとる
- 数値が高いほどモデルの妥当性が高い
見るべき指標2:F値(エフチ)
F値もモデルの確からしさを表す指標です。F値はF検定(フィッシャー検定)と呼ばれる手法が用いられていて、統計用語で有意かどうかを判定するために使用します。
数値は「このモデルがどの程度たまたま現れたものなのか」という確率を表します。例えば、これが0.04(つまり4%)だと、このモデルはたまたま度が4%であり、逆にたまたまでない度が96%ある、ということになります。たまたまでない度が96%もあるということは、このモデルは96%の確率で確からしい(有意である)という解釈になります。
このパーセンテージは一般的に90%、95%、99%というようにキリのよい数値が用いられます。したがって、F値が0.1未満なら90%有意、0.05未満なら95%有意、0.01未満なら99%有意であると判定されます。
これは統計用語で検定と言われ、最もよく用いられる数値は95%(95%検定)です。例えばF値0.2、つまり80%の確率で確からしいという感覚的にはそこそこ高い確率であっても、95%検定では、「たまたまじゃない?」と疑われてしまう、ということになります。
今回の結果は、F値が0.0000532192(約0.005%)と、とても小さく、99.99%の確率で有意であると言えます。
- モデルが有意でない(たまたまである)確率を表す
- 数値が小さいほどモデルが確からしい(有意である)確率が高い
見るべき指標3:P値(ピーチ)
P値もF値と同じようにたまたまである(有意でない)確率を示しますが、P値は切片と各変数の確からしさを表します。PとはProbability(確率)の略称です。
今回の結果は、切片が0.021(2.1%)、X値1が0.0086(0.86%)、X値2が0.044(4.4%)、X値3が0.218(21.8%)であるので、切片とX値1とX値2が95%で確からしい(有意である)と言えるのですが、X値3だけは確からしいかは疑わしいという結果が読み取れます。
- モデルの切片と各変数が有意でない(たまたまである)確率を表す
- 数値が小さいほど切片と各変数が確からしい(有意である)確率が高い
分析結果を用いた予想
次に予想値を計算してみましょう。

係数からこの重回帰分析における回帰式が判明します。以下、表ではわかりやすくするため係数を丸めています。
係数 | 係数名 | |
---|---|---|
切片 | 31.4 | a |
X 値 1 | 0.11 | b1 |
X 値 2 | -0.54 | b2 |
X 値 3 | -0.50 | b3 |
$$Y=a+b1×X1+b2 × X2+b3 × X3$$
$$Y=31.4+0.11×X1-0.54×X2-0.50×X3$$
この式を使うことで新しいデータの物件価格を予想することかできます。
例えば、広さ50㎡、築年数10年、駅までの時間10分の物件なら、26.6万円という予想値が計算できます。

$$31.4+0.11×50-0.54×10-0.50×10=26.5$$

なお、元のデータを式に当てはめた場合の予想値は、分析ツールで「残渣」にチェックを入れると表示することができます。

さらに高度な分析を目指して
多重共線性(マルチコ)の影響を考える
重回帰分析には多重共線性(たじゅうきょうせんせい)と言われる問題が生じることがあります。これは変数間に強い相関がある場合に生じるものです。
- 解析が不可能になる(エラーが出る)ことがある。
- 解析結果の信頼性が低くなることがある。
例えば、4つ目の変数として次のように「駅までの距離」を追加してみます。

このとき、駅までの時間と駅までの距離には強い相関がみられます。

分析結果は次のようになります。モデル全体の確からしさを表す自由度調整済決定係数が0.6961と先ほどの0.6966より少しだけ低下しています。

重回帰分析においては、変数の数は多ければ多いほど良いというわけではないので、結果を見ながら試行錯誤する作業も重要ですね。

マルチコに注意なんだな〜!
終わりに
いかがでしたでしょうか。
今回は、エクセルで簡単に重回帰分析を行う手順と結果の解釈についてご紹介しました。
高度な分析が簡単にできるのがエクセルの良いところですね。
記事内で使用したデータを分析結果は無料でダウンロードできます。テンプレートリンクからお進み下さい。
今回の内容がお役に立てれば幸いです。それではまた次回!

ご覧いただきありがとうございました。
コメント