Hi-Stat Vox No.17(2010年12月27日)

情報量規準とその落とし穴

黒住英司(一橋大学経済学研究科教授)

Photo: Kurozumi Eiji

本稿では、多変量回帰モデルにおける説明変数や構造変化の数についてのモデル選択規準を開発した最近の研究(Kurozumi and Tuvaandorj 2010)に関連して、情報量規準について話してみたい。情報量規準といえば、実証分析でもしばしば用いられるモデル選択の手法であるので、研究者はもちろん、多くの大学院生が利用していると思う。モデル選択の手法としては、この情報量規準と、仮説検定を繰り返し用いて有意な変数を残すという方法が代表的なものであるが、情報量規準の良さの一つは、その簡便性にあるだろう。たとえば、時系列モデルのラグ次数を選択する場合、仮説検定による方法は有意水準の設定いかんによって選択されるラグ次数が変ってしまうことがあるが、情報量規準だとそのようなことはなく、最適なモデルがただ一つ選択される。このように述べると、まるで情報量規準の方が優っているという誤解を招きかねないが、決してそのようなことはない。詳細は述べないが、仮説検定の方が様々な情報を与えてくれることもあり、情報量規準にしても仮説検定にしても、どちらも有力な統計的手法であることは間違いない。

さて、情報量規準といっても様々なものがあるが、多くの教科書で取り上げられているように、赤池情報量規準(AIC)とベイジアン情報量規準(BIC)がもっとも頻繁に使われているものである。この二つの情報量規準の定義は、以下のように与えられる。

AIC=T*log(s2)+2*K,   BIC=T*log(s2)+K*log(T).

ただし、Tは標本の大きさ、s2はモデルの誤差項の分散推定量で、Kはモデルに含まれる係数の数である(教科書によっては、両辺をTで割って定義することもある)。すなわち、様々なモデルを最小2乗法で推定し、その残差から分散推定量s2が得られれば、AICやBICは簡単に求めることができ、情報量規準を最小化するモデルを選択してやればよいのである。

このように、情報量規準は簡単に求めることができ、それ故に広く用いられてきたのであるが、他方では、情報量規準に対する理解が浅かったり、誤った使い方をされてしまうなどの「落とし穴」があると思う。ここではAICを例にもう少し詳しく話していくことにする。

そもそもAICとはどのように導出されたのだろうか。教科書ではしばしば、AICの第2項の2*Kは「ペナルティ項」と説明される。広く知られているように、モデルの説明変数を増やすと残差平方和は必ず小さくなるので、AICの第1項をモデル選択規準とすると、説明変数が一番多い、最も複雑なモデルが選択されてしまう。そこで、説明変数の追加に対するペナルティが必要であり、そのペナルティが2*Kである、ということである。この解釈は間違いではないし、自由度修正済み決定係数を学んだ人にとってはごく自然に理解できる解釈である。では、この2*Kというペナルティはどこからやってきたのであろうか。実は、このペナルティ項は決していい加減に選ばれたわけではなく、統計学的にきちんと導出されたものなのである。

そもそも、モデル選択を考える時に一つの参考とされるものとして、カルバック・ライブラー(KL)情報量というものがある。このKL情報量を理解するために、次のような簡単な例を考えよう。今、A、B、二つのうち、どちらかのモデルを選択したいとしよう。ここで、データが何も観測されない時に分析者が持っている情報から、モデルAが正しいという確率(Aの事前確率)がP(A)、同様に,モデルBが正しいという確率(Bの事前確率)がP(B)であったとしよう。この事前確率は、データを観測する前に分析者が想定している確率であることに注意する。一方、一旦データxが観測されると、そのデータの挙動から判断して、新たに、モデルAが正しいという確率(Aの事後確率)とモデルBが正しいという確率(Bの事後確率)が得られる。すなわち、データを観測することにより、モデルAがよりもっともらしいか、それとも、Bがよりもっともらしいかの判断が、データの観測前の時点から更新されるのである。これらの事後確率をP(A|x),P(B|x)とする。すると、データが観測されることにより、モデルA、Bが正しいという確率の変化は、以下の式で計測することができる。

logP(A|x)/P(B|x) - logP(A)/P(B).

この式の値が大きければ、モデルAの方がよりもっともらしいということになり、逆に小さければ、モデルBの方がより好まれるということになる。ただし、上の式は特定の観測値xが観測された時のものであるので、xがモデルAより発生されていると想定して期待値をとると、それはxに依存しなくなる。これが、KL情報量であり、KL(A;B)と表記することにする。

このKL情報量の特性として、(1)KL(A;B)は非負の値をとる、(2)KL(A;B)=0となるのは、A=Bの時のみである、という点が挙げられる。従って、Aを真のモデルとした時に、KL(A;B)がなるべく小さな値となるようにモデルBを選択すれば、正しいモデルにより近いモデルを選ぶことができるのである。なお、余談ではあるが、KL情報量は数学的には「距離」ではない。距離であるためには、KL(A;B)とKL(B;A)が同じ値とならなければならないが、両者は一般に異なるものである。従って、ごくたまにではあるが見受けられる「カルバック・ライブラーの距離」という表現は誤ったものである。

ここで問題なのは、KL情報量は真のモデルAに依存しているので、一般には分からない、ということである。そこで、KL情報量を推定して、その推定されたKL情報量を最小にするようにモデル選択をする、ということが考えられる。この原理に基づいたモデル選択規準がAICである。AICでは、まず、KL情報量を対数尤度で推定することを考える。この対数尤度がAICの第1項目に対応している。ただし、対数尤度はKL情報量の不偏推定量ではなく、バイアスを持った推定量であることが知られている。このバイアスを求めると実は2*Kとなるので、AICの第2項に2*Kが現れるのである。

以上の様に、AICはその形は単純であるが、きちんとした統計理論に裏付けられたものなのである。きちんとした理論的裏付けがあり、なおかつ、単純な形式であるからこそ、実証分析で広く使われて来たのだろう。

それ故に、安易にAICを改良してはいけない。たとえば、AICは定常モデルに対して開発されたものであるが、それを安易に非定常モデルへ拡張することは、理論的に妥当かどうか定かではないため、避けるべきである。一つの例としては、共和分モデルの推定が挙げられる。共和分回帰の推定方法として、説明変数のリードとラグを入れる動学的回帰があるが、このリードとラグの選び方に従来のAICを利用している実証論文が見受けられる。しかしながら、共和分モデルは非定常モデルであるから、従来のAICがKL情報量の不偏推定量となっている保証はないのである。従って、安易に共和分モデルにAICを使うべきではないのだが、実は、ディスカッションペーパーNo. 6(Choi and Kurozumi 2008)で、共和分モデルへAICを用いる妥当性が証明されている。したがって、結果論からいえば、従来の実証分析は問題がなかったといえる。

もう一つの例は、構造変化を伴うモデルである。構造変化の起きた回数が未知である時に、モデル選択を従来のAICで行うということを考えよう。この時、K変数回帰モデルで構造変化が無いモデルだとペナルティは2*Kだが、構造変化が1回あるモデルでは、変化の前後でパラメータを推定し直すので、ペナルティは2*(2*K)=4Kである。同様に、構造変化が2回あるモデルでは、ペナルティは6*Kとなる。はたして、このペナルティは正しいのであろうか。答えはノーである。ディスカッションペーパーNo. 144(Kurozumi and Tuvaandorj 2010)では、構造変化点を考慮したAICのペナルティは、想定する構造変化の回数をmとすると、

2*(未知係数の数)+6*m

となることを導出している。すなわち、従来のAICのペナルティでは不十分であり、さらに、6*(構造変化の回数)をペナルティに付け加えなければならないのである。もちろん、このペナルティは、対数尤度のバイアスを厳密に計算して導出したものであり、統計的な裏付けのあるものである。また、シミュレーション実験を行うと、構造変化を伴うモデルでは、従来のAICでは正しいモデルを選択することはほとんど不可能であるが、上のペナルティ項を用いた修正AICを用いれば、高い確率で正しいモデルが選択されることが分かる。

以上の様に、AICというのはその簡便な形と使いやすさ、解釈の容易さから広く用いられてきたが、統計理論の裏付けのもとに導出されたものであり、安易に拡張してはならないということが理解できよう。その上で、今後も情報量規準が広く使われ、多くの有用な実証研究がすすめられていくことが望ましいことであろう。

参考文献

Choi, I., and E. Kurozumi (2008), “Model Selection Criteria for the Leads-and-Lags Cointegrating Regression,” Global COE Hi-Stat Discussion Paper Series No. 6, Hitotsubashi University, forthcoming in Journal of Econometrics.

Kurozumi, E., and P. Tuvaandorj (2010), “Model Selection Criteria in Multivariate Models with Multiple Structural Changes,” Global COE Hi-Stat Discussion Paper Series No. 144, Hitotsubashi University.