■要求されるスキル
重回帰分析において多重共線性の対応ができ、適切に変数を評価・除去して予測モデルが構築できる
/////////////////////
■多重共線性の説明
・回帰分析では、一つの従属変数(予測される変数)に対して一つ以上の独立変数(予測する変数)を構成して予測モデルとします*1。このとき、予測する変数を「独立変数」と呼ぶように、予測する変数の間には関連性がない(つまり独立)ことが想定されています。複数の変数で予測するなら似たような者同士ではなく、異なるもので予測したほうが意味があると思えるので、この想定は納得のいくものです。
黒が高い相関がみられる独立変数で回帰分析した場合、赤い線は低い相関がみられる独立変数で回帰分析した場合です。分布から明らかなように、高い相関がみられる独立変数を用いると推定された回帰係数の取りうる範囲が広がります。つまり、極端な値が出る可能性が相対的に高く、推定が不安定であると考えられます。→右の図を参照する。(例えば、年齢が上がれば経験も上がるので相関するが、”経験”と”年齢”を独立変数にすると、”年齢”と”経験”の効果を”個別”なものとして”推定することが難しくなってしまいます。(つまり、年齢の回帰係数を調べたいなーというときとか)
■多重共線性の発生有無の確認方法
Variance Inflation Factor(VIF)を調べる?
■変数の除去・評価
モデルから相関している変数を取り除くべきか?いや、以下、2パターンの場合は問題ない。
1. 相関をしている変数の効果を分析すること自体には意味がなく、ほかの変数のパラメーターに興味があるとき。
2. 予測モデルを作っているとき。(+パラメーターの解釈に特に興味がないとき)
問題になるときは相関しているパラメーターのどれかに興味があるとき。
・サンプルサイズを増やす。(micronumerosityの問題として対処する)
・相関している変数のどれかをモデルから外す。(モデルに制約の仮定を置く)
僕がやってきた計量経済学なんかでは前者のアプローチをとるのは現実的に難しく、何らかの仮定を置いて変数を落とす方が良く使われていました。
最後の要約の部分に変数間で相関してたら相関行列が正則にならなくて、パラメーターの解が不安定になってしまう事がマルチコの本質的な問題であって、正則化項はそれを”正則化”して変数を落としたりすることなく推定する方法ですよとしています。
http://webbeginner.hatenablog.com/entry/2016/05/29/072806
http://ir.library.osaka-u.ac.jp/dspace/bitstream/11094/9749/1/hs13-227.pdf
重回帰分析 に用い られ る説 明変量 の中に相互に関連す る ものが組込まれてい る とき,相 関行列が正則で な くな り,解 が求 め られ なか った り,求 め られて も非常に不安定で あっに りする場合が あ る。
これは統 計学で多重共線 性 と呼 ばれ る現 象であ るが,こ のよ うな と き説明変量 を削除したり,追 加 しナこりす ることな くこれ を解決す る一 つの方 法 として,ridge回 帰 なる方法が提案されてい る。す なわち,相 関行列 の対 角要 素に定数(極 めて小 さい)を 加 えて解 く方法で あるが,本 稿 では,こ れ ら多重共線 性 と種 々のridge推 定量 を求め る方法 をあげ,数 値例 を用いて,そ れ らを検討 しナこ。 その結果,通 常の最小2乗 法 を僅かに修正 す るだ けで,安 定 した解が得 られ ることがわか った。