項目 | 説明 |
---|---|
定義 | 説明変数が目的変数のどれくらいを説明できるかを表す値 |
値域 | 0から1までの値 |
解釈 | 1に近いほど、回帰式が実際のデータに当てはまっていることを表す |
例 | テストの成績の良さ(目的変数)を予測する際に、普段の勉強時間(説明変数)は関係がありそうだが、月に美容院に行く回数(説明変数)は関係なさそう。決定係数は、これらの関係性を数値化する指標である。 |
1. 決定係数の概要とは何か
決定係数の定義
決定係数とは、回帰分析において、説明変数が目的変数のどれくらいを説明できるかを表す値です。寄与率と呼ばれることもあります。標本値から求めた回帰方程式(モデル)のあてはまりの良さの尺度として利用されます。
決定係数は、一般的にR2(R二乗)と表記され、0から1までの値をとります。1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。
例えば、「テストの成績の良さ」を予測したいとします。この時「普段の勉強時間」は、「テストの成績の良さ」に関係してそうですよね。しかし「月に美容院に行く回数」はあまり関係なさそうです。
このように予測したい値に対して、入力するパラメータが本当に関係あるかどうかを数値として表現したものが決定係数です。一般的には0.2 ~ 0.9あたりの数値を取ることが多いです。ただ、どの数値を閾値とするかは開発者によるため、絶対的な数値はありません。
項目 | 説明 |
---|---|
定義 | 説明変数が目的変数のどれくらいを説明できるかを表す値 |
値域 | 0から1までの値 |
解釈 | 1に近いほど、回帰式が実際のデータに当てはまっていることを表す |
例 | テストの成績の良さ(目的変数)を予測する際に、普段の勉強時間(説明変数)は関係がありそうだが、月に美容院に行く回数(説明変数)は関係なさそう。決定係数は、これらの関係性を数値化する指標である。 |
決定係数のイメージ
決定係数は、回帰分析によって得られた予測値が、実際の目的変数の値とどのくらい一致しているかを表す指標です。回帰分析には、y=ax+bという式で表すことができる単回帰分析と、説明変数が複数ある重回帰分析があります。
まずは単回帰分析から見ていき、決定係数とは何か? を考えてみましょう。単回帰分析ではy=ax+bの形で目的変数(y)の値を予測しますが、あくまで「予測値」のため実際の目的変数の値とは完全に一致しません。
そのため、何を説明変数(x)とするかによって、「予測がほぼ当たっている」場合と「あまり当たっていない」場合があります。上図の左が「ほぼ当たっている」状態で、右が「あまり当たっていない」状態であることが分かると思います。
こういった2つのケースを比較するために「予測がどのくらい当たっているか」を客観的に示す指標が決定係数です。決定係数は0から1の範囲内の値を取り、1に近ければ近いほど予測が当たっている状態で、0に近ければ近いほど予測があまり当たっていない状態を表します。
状態 | 決定係数の値 |
---|---|
予測がほぼ当たっている | 1に近い |
予測があまり当たっていない | 0に近い |
決定係数の計算方法
決定係数は、説明変数が目的変数をどれくらい説明しているか、つまり「回帰変動が全変動に対してどれだけ多いか=残差変動が全変動に対してどれだけ少ないか」を表すものです。
したがって決定係数は、次に示すように回帰変動を全変動で割ることで求められます。
決定係数は、説明変数の数が増えるほど1に近づくという性質を持っています。そのため、説明変数の数が多い場合には、この点を補正した「自由度調整済み決定係数(自由度修正済み決定係数)」を使います。
自由度調整済み決定係数は次の式から求められます。nはサンプルサイズを、kは説明変数の数を表します。
項目 | 説明 |
---|---|
全変動 | 実際のデータと平均値の差の二乗和 |
回帰変動 | 予測値と平均値の差の二乗和 |
残差変動 | 実際のデータと予測値の差の二乗和 |
決定係数 | 回帰変動を全変動で割った値 |
まとめ
決定係数は、回帰分析において、説明変数が目的変数のどれくらいを説明できるかを表す値であり、回帰モデルの当てはまりの良さを示す指標です。
決定係数は、0から1までの値を取り、1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。
決定係数は、回帰変動を全変動で割ることで求められます。
決定係数は、説明変数の数が増えるほど1に近づくという性質を持つため、説明変数の数が多い場合には、自由度調整済み決定係数を使用する必要があります。
2. 決定係数の計算方法とは
決定係数の計算式
決定係数は、1 から残差分散と従属変数の分散の間の比を引いたものに等しくなります。決定係数は、平方和の総和に対する残差から 1 から平方和を引いた値を引くことによっても計算できます。
したがって、決定係数の計算式は次のようになります。
線形回帰モデルの場合、決定係数は相関係数の 2 乗に相当します。
サンプル データを以下の計算機に接続して、単純な線形回帰モデルを当てはめ、その決定係数を計算します。最初のボックスには独立変数 X の値のみが含まれ、2 番目のボックスには従属変数 Y の値のみが含まれるように、データのペアを分離する必要があります。
記号 | 説明 |
---|---|
R2 | 決定係数 |
σ2(u) | 残差分散 |
σ2(Y) | 従属変数Yの分散 |
Yi | 観測従属変数iの値 |
Y^i | 観測値iの回帰モデルによって近似された値 |
Y | すべての観測値にわたる従属変数の平均 |
全変動、回帰変動、残差変動
決定係数を求めるにためには、実際のデータと推定された回帰式から「全変動」「回帰変動」「残差変動」の3つを求める必要があります。
これらの変動は二乗和として算出します。
全変動は「実際のデータと平均値の差」、回帰変動は「予測値と平均値の差」、残差変動は「実際のデータと予測値の差」を意味しており、二乗和として算出します。
決定係数は、説明変数が目的変数をどれくらい説明しているか、つまり「回帰変動が全変動に対してどれだけ多いか=残差変動が全変動に対してどれだけ少ないか」を表すものです。
項目 | 説明 |
---|---|
全変動 | 実際のデータと平均値の差の二乗和 |
回帰変動 | 予測値と平均値の差の二乗和 |
残差変動 | 実際のデータと予測値の差の二乗和 |
自由度調整済み決定係数
決定係数は説明変数の数が増えるほど1に近づくという性質を持っています。そのため、説明変数の数が多い場合には、この点を補正した「自由度調整済み決定係数(自由度修正済み決定係数)」を使います。
自由度調整済み決定係数は次の式から求められます。nはサンプルサイズを、kは説明変数の数を表します。
自由度調整済み決定係数は、決定係数と比べて、説明変数の数が多い場合に、より適切な値を示すことができます。
自由度調整済み決定係数は、回帰モデルの比較を行う際に、特に重要となります。
記号 | 説明 |
---|---|
R*2 | 自由度調整済み決定係数 |
n | サンプルサイズ |
k | 説明変数の数 |
まとめ
決定係数は、回帰変動を全変動で割ることで求められます。
決定係数は、説明変数の数が増えるほど1に近づくという性質を持つため、説明変数の数が多い場合には、自由度調整済み決定係数を使用する必要があります。
自由度調整済み決定係数は、決定係数と比べて、説明変数の数が多い場合に、より適切な値を示すことができます。
自由度調整済み決定係数は、回帰モデルの比較を行う際に、特に重要となります。
3. 決定係数の意義とは何か
決定係数の解釈
決定係数の値の範囲は 0 ~ 1 ですが、通常はパーセンテージで表されるため、最小値は 0%、最大値は 100% になります。
決定係数の解釈に関しては、その値が高いほど、回帰モデルがデータ サンプルをよりよく説明していることを意味します。
したがって、決定係数が 1 に近づくほど、モデルはより多く調整されます。一方、0 に近づくほど、作成される回帰モデルの信頼性は低くなります。
ただし、2 つの回帰モデルを比較する場合、回帰係数が高いモデルの方が必ずしも優れているとは限りません。
決定係数の値 | 解釈 |
---|---|
0 | 回帰モデルはデータサンプルを全く説明できていない |
0.5 | 回帰モデルはデータサンプルの50%を説明できている |
1 | 回帰モデルはデータサンプルを完全に説明できている |
決定係数の限界
決定係数は、説明変数を含めることに不利益を与えるものではないため、重要な制限を提示します。
論理的には、回帰モデルに含まれる説明変数が多いほどモデルは複雑になりますが、観察されたデータをより適切に説明できるため、決定係数は高くなります。
しかし、調整された決定係数には、モデル内の変数の数が考慮されます。
結論として、決定係数は回帰モデルがデータセットにどの程度適合しているかを知ることができるため、回帰モデルの分析に非常に役立ちます。
限界 | 説明 |
---|---|
説明変数の数が多いほど決定係数は高くなる | 説明変数の数を考慮せずに決定係数のみでモデルの良さを判断すると誤った評価になる可能性がある |
決定係数は予測精度を評価する指標ではない | 決定係数は回帰モデルの当てはまりの良さを評価する指標であり、予測精度を評価する指標ではない。予測精度を評価する指標としては、RMSEやMAEなどが用いられる。 |
決定係数の活用
決定係数は、回帰モデルの当てはまりの良さを評価する上で重要な指標であり、論文等で回帰分析結果を表示する場合には、決定係数の表記は必須と言って過言ではありません。
決定係数は、目的変数が十分に説明されているかどうかを数値化したものですが、具体的にはどのように計算されているのでしょうか。
決定係数の背景には以下のような発想があります。説明変数が目的変数に何ら寄与していないという前提で、目的変数は定数である平均値(期待値)から誤差を伴ってバラついているとする「最単純モデル」と回帰分析によって推定された「回帰直線」を比較する。
決定係数は、回帰分析が残差平方和を最小化する係数を推定量とすることから「最単純モデル」の残差平方和と「回帰直線」の残差平方和を比較することで、回帰分析を評価しようとします。
まとめ
決定係数は、回帰モデルの当てはまりの良さを評価する上で重要な指標であり、論文等で回帰分析結果を表示する場合には、決定係数の表記は必須と言って過言ではありません。
決定係数は、目的変数が十分に説明されているかどうかを数値化したものですが、具体的にはどのように計算されているのでしょうか。
決定係数の背景には以下のような発想があります。説明変数が目的変数に何ら寄与していないという前提で、目的変数は定数である平均値(期待値)から誤差を伴ってバラついているとする「最単純モデル」と回帰分析によって推定された「回帰直線」を比較する。
決定係数は、回帰分析が残差平方和を最小化する係数を推定量とすることから「最単純モデル」の残差平方和と「回帰直線」の残差平方和を比較することで、回帰分析を評価しようとします。
4. 決定係数の利点と欠点について
決定係数の利点
決定係数は、回帰モデルの当てはまりの良さを簡単に評価できる指標です。
決定係数は、0から1までの値を取り、1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。
決定係数は、回帰分析の結果を解釈する際に、重要な指標となります。
決定係数は、回帰モデルの比較を行う際に、役立ちます。
利点 | 説明 |
---|---|
簡単に評価できる | 決定係数は、回帰モデルの当てはまりの良さを簡単に評価できる指標である。 |
解釈が容易 | 決定係数は、0から1までの値を取り、1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。 |
モデルの比較に役立つ | 決定係数は、回帰モデルの比較を行う際に、役立ちます。 |
決定係数の欠点
決定係数は、説明変数の数が増えるほど1に近づくという性質を持つため、説明変数の数が多い場合には、自由度調整済み決定係数を使用する必要があります。
決定係数は、回帰モデルの当てはまりの良さを評価する指標ですが、回帰モデルの予測精度を評価する指標ではありません。
決定係数は、回帰モデルの解釈を容易にする指標ですが、回帰モデルの選択を行う指標ではありません。
決定係数は、回帰モデルの評価を行う際に、他の指標と合わせて使用することが重要です。
欠点 | 説明 |
---|---|
説明変数の数に影響される | 決定係数は、説明変数の数が増えるほど1に近づくという性質を持つため、説明変数の数が多い場合には、自由度調整済み決定係数を使用する必要があります。 |
予測精度を評価できない | 決定係数は、回帰モデルの当てはまりの良さを評価する指標ですが、回帰モデルの予測精度を評価する指標ではありません。 |
モデルの選択に適さない | 決定係数は、回帰モデルの解釈を容易にする指標ですが、回帰モデルの選択を行う指標ではありません。 |
決定係数の注意点
決定係数は、回帰モデルの当てはまりの良さを評価する指標ですが、回帰モデルの予測精度を評価する指標ではありません。
決定係数は、回帰モデルの解釈を容易にする指標ですが、回帰モデルの選択を行う指標ではありません。
決定係数は、回帰モデルの評価を行う際に、他の指標と合わせて使用することが重要です。
決定係数は、回帰モデルの評価を行う際に、他の指標と合わせて使用することが重要です。
まとめ
決定係数は、回帰モデルの当てはまりの良さを簡単に評価できる指標ですが、説明変数の数が増えるほど1に近づくという性質を持つため、説明変数の数が多い場合には、自由度調整済み決定係数を使用する必要があります。
決定係数は、回帰モデルの当てはまりの良さを評価する指標ですが、回帰モデルの予測精度を評価する指標ではありません。
決定係数は、回帰モデルの解釈を容易にする指標ですが、回帰モデルの選択を行う指標ではありません。
決定係数は、回帰モデルの評価を行う際に、他の指標と合わせて使用することが重要です。
5. 決定係数と相関係数の違いについて
相関係数の定義
相関係数は、2つの変数の間の線形な関係の強さを表す指標です。
相関係数は、-1から1までの値を取り、1に近いほど、2つの変数は正の強い相関関係にあることを示します。
-1に近いほど、2つの変数は負の強い相関関係にあることを示します。
0に近いほど、2つの変数は相関関係がないことを示します。
項目 | 説明 |
---|---|
定義 | 2つの変数の間の線形な関係の強さを表す指標 |
値域 | -1から1までの値 |
解釈 | 1に近いほど、2つの変数は正の強い相関関係にある。-1に近いほど、2つの変数は負の強い相関関係にある。0に近いほど、2つの変数は相関関係がない。 |
決定係数と相関係数の関係
決定係数は、相関係数の2乗に等しくなります。
つまり、決定係数は、相関係数の2乗によって求められます。
相関係数は、2つの変数の間の線形な関係の強さを表す指標であり、決定係数は、回帰モデルの当てはまりの良さを表す指標です。
決定係数は、相関係数の2乗であるため、相関係数の符号は考慮されません。
項目 | 説明 |
---|---|
決定係数 | 相関係数の2乗に等しい |
相関係数 | 決定係数の平方根に等しい |
決定係数と相関係数の使い分け
相関性を見る場合には相関係数を使う。
回帰式の当てはまり具合を見る場合は決定係数を使う。
相関係数は、2つの変数の間の線形な関係の強さを表す指標であり、決定係数は、回帰モデルの当てはまりの良さを表す指標です。
決定係数は、相関係数の2乗であるため、相関係数の符号は考慮されません。
目的 | 指標 |
---|---|
相関性の確認 | 相関係数 |
回帰式の当てはまりの確認 | 決定係数 |
まとめ
相関係数は、2つの変数の間の線形な関係の強さを表す指標であり、決定係数は、回帰モデルの当てはまりの良さを表す指標です。
決定係数は、相関係数の2乗であるため、相関係数の符号は考慮されません。
相関性を見る場合には相関係数を使う。
回帰式の当てはまり具合を見る場合は決定係数を使う。
6. 決定係数の具体的な例について
例1: 身長と体重の関係
身長と体重の関係を回帰分析で調べたところ、決定係数が0.6と算出されました。
これは、体重の変動の60%が身長によって説明できることを意味します。
つまり、身長は体重に大きな影響を与えていると考えられます。
しかし、決定係数は、身長以外の要因も体重に影響を与えている可能性も示唆しています。
決定係数 | 解釈 |
---|---|
0.6 | 体重の変動の60%が身長によって説明できる。身長は体重に大きな影響を与えていると考えられる。 |
0.2 | 体重の変動の20%が身長によって説明できる。身長は体重にそれほど大きな影響を与えていないと考えられる。 |
0.8 | 体重の変動の80%が身長によって説明できる。身長は体重に大きな影響を与えていると考えられる。 |
例2: 広告費と売上額の関係
広告費と売上額の関係を回帰分析で調べたところ、決定係数が0.2と算出されました。
これは、売上額の変動の20%が広告費によって説明できることを意味します。
つまり、広告費は売上額にそれほど大きな影響を与えていないと考えられます。
広告費以外の要因も売上額に影響を与えている可能性が高いと考えられます。
決定係数 | 解釈 |
---|---|
0.6 | 売上額の変動の60%が広告費によって説明できる。広告費は売上額に大きな影響を与えていると考えられる。 |
0.2 | 売上額の変動の20%が広告費によって説明できる。広告費は売上額にそれほど大きな影響を与えていないと考えられる。 |
0.8 | 売上額の変動の80%が広告費によって説明できる。広告費は売上額に大きな影響を与えていると考えられる。 |
例3: 株価と経済指標の関係
株価と経済指標の関係を回帰分析で調べたところ、決定係数が0.8と算出されました。
これは、株価の変動の80%が経済指標によって説明できることを意味します。
つまり、経済指標は株価に大きな影響を与えていると考えられます。
しかし、決定係数は、経済指標以外の要因も株価に影響を与えている可能性も示唆しています。
決定係数 | 解釈 |
---|---|
0.6 | 株価の変動の60%が経済指標によって説明できる。経済指標は株価に大きな影響を与えていると考えられる。 |
0.2 | 株価の変動の20%が経済指標によって説明できる。経済指標は株価にそれほど大きな影響を与えていないと考えられる。 |
0.8 | 株価の変動の80%が経済指標によって説明できる。経済指標は株価に大きな影響を与えていると考えられる。 |
まとめ
決定係数は、回帰分析の結果を解釈する際に、重要な指標となります。
決定係数は、説明変数が目的変数のどれくらいを説明できるかを表す値であり、回帰モデルの当てはまりの良さを示す指標です。
決定係数は、回帰モデルの比較を行う際に、役立ちます。
決定係数は、回帰モデルの評価を行う際に、他の指標と合わせて使用することが重要です。
参考文献
・決定係数とは 概要や使い方を分かりやすく解説 – 文系のための …
・決定係数が高ければokは危ない!決定係数を正しく理解しよう …
・27-5. 決定係数と重相関係数 | 統計学の時間 | 統計web
・【R^2】決定係数をわかりやすく説明|python | 青の統計学
・決定係数の定義と相関係数との関係 | 高校数学の美しい物語
・決定係数(R2)・自由度調整済み決定係数(R**2)の求め方をわかり …
・決定係数(寄与率)とは?目安や高い場合と低い場合の解釈と …
・[評価関数]決定係数(Coefficient of Determination)R2とは?
コメント