日々の気になる出来事: 統計学における自由度の話

2013年12月27日金曜日

統計学における自由度の話

先月、統計に関する整理をしていた際に、自由度について腹落ちした部分があったので、年末で時間もあるし、まとめておく。

統計を学んだ人にとっては自由度（degree of freedom）は一度は耳にしたことがあるだろう。ただ、自由度を扱う際、なぜマイナス１や２をするのか今ひとつ理解せぬまま慣習のごとく行っている人も少なくないのではないだろうか。
少なくとも少し前まで私はそうでした。

自由度って何？

以下、引用

統計の分野では、独立に採取された観測データ数がｎ個あるばあい、このデータ群は　ｎ　自由度であると表現します。
「独立に」という意味は、どの観測値も他の観測値から正確に値を決められない状態という意味です。
たとえば、観測データの中にズルをしてデータを取らず、他のいくつかのデータから計算式で算出したものがあったばあい、その観測データは他のデータから正確に値が決められます。この算出式の存在によって、自由度がひとつ減少してしまいました。ですから１自由度が減って、このデータ群の自由度は（ｎ－１）であるということになります。

引用（（おまけ）イラストでわかる自由度と不偏分散）

うーん。なんとなく、うーんって感じじゃないっすかね。

で、下記の書籍を私はバイブルとしているのですが、すごくわかりやすい記述が。

自由度という概念は変数が自在に動き回れる空間の次元と関係しています。
たとえば、変数x1とx2のペア（x1,x2）を考えます。それぞれ、ー∞から∞まで可動域。

ここにおいて、自由に決めることができるのであれば、下記の図の通り、自由度は２。