読者です 読者をやめる 読者になる 読者になる

野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

標本分布 - χ二乗分布とt分布

苦手を克服するために今日もまとめる。

ガンマ関数とベータ関数

ガンマ関数は、 { \alpha \gt 0 } の実数に対して

{ \displaystyle
\Gamma(\alpha)=\int_{0}^{\infty}x^{\alpha-1}e^{-x}dx
}

となる。この関数には、

  • mが自然数のときに{ \Gamma(m) = (m-1)!} 階乗の一般化。
  • {\Gamma(\frac{1}{2}) = \sqrt{\pi}}
  • mが0より大きい実数のときに{\Gamma(m) = (m-1) \cdot {\Gamma(m-1)} }

という性質がある。ベータ関数は、

{ \displaystyle
 B(a,b) = \int_{0}^{1}x^{a-1}(1-x)^{b-1}dx
}

と定義されて、両者の間には、

{ \displaystyle
 B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}
}

という関係がある。

ガンマ分布 (Gamma distribution)

{Ga(\alpha,\lambda)}確率密度関数は、

{ \displaystyle
 f(x) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}
}

である。{\alpha = 1} の時に指数分布となる。その期待値と分散は、

{ \displaystyle
 E[X] = \frac{\alpha}{\lambda}
}

{ \displaystyle
 V[X] = \frac{\alpha}{\lambda^2}
}

ガンマ分布の確率変数は負の値をとらない。

ベータ分布 (Beta distribution)

{Be(\alpha,\lambda)}確率密度関数は、

{ \displaystyle
 f(x) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)} \quad ( 0 \lt x \lt 1)
}

その期待値と分散は、

{ \displaystyle
 E[X] = \frac{\alpha}{\alpha+\beta}
}

{ \displaystyle
 V[X] = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}
}

となる。

{ \textstyle \chi^2 } 分布 (Chi-squared distribution)

{ X_1,X_2,\cdots,X_n}が標準正規分布 { N(0,1)}に従う確率変数のときに

{ \displaystyle
 \chi^2 = \sum_{i=1}^{n}X_{i}^{2}
}

が、ガンマ分布 { Ga(\frac{n}{2},\frac{1}{2})}に従い、自由度  {n}{ \textstyle \chi^2 } 分布と呼ばれる。

平均が未知のとき

前回の標本分布の不偏分散に戻る。

{ \displaystyle s^2 = \frac{1}{n−1} \sum_{i=1}^{n}\left( X_i - \overline{X} \right)^2
}

{ X_1,X_2,\cdots,X_k}を標本だとして、分散が既知のとき下記のように標準化すると

{ \displaystyle \frac{X_1-\mu}{\sigma},\frac{X_2-\mu}{\sigma},\cdots,\frac{X_n-\mu}{\sigma}}

これは{ N(0,1)}に従うので、自由度 { n}{ \chi^2(n)}となる。

{ \displaystyle \left(\frac{X_1-\mu}{\sigma}\right)^2+\left(\frac{X_2-\mu}{\sigma}\right)^2+\cdots+\left(\frac{X_n-\mu}{\sigma}\right)^2}

不偏分散の式を合わせて変形した統計量は、

{ \displaystyle
\frac{(n-1)}{\sigma^2}s^2 = \sum_{i=1}^{n}\left( \frac{X_i - \overline{X}}{\sigma}\right)^2
}

自由度 {n-1}{ \chi^2(n-1)} に従うことになる。 このとき { (X_1-\overline{X}) + (X_2-\overline{X}) +\cdots+(X_n-\overline{X}) \equiv 0  } となるので自由度が1減っている。

期待値と分散

{ \displaystyle
E[X] = k
}

{ \displaystyle
V[X] = 2k
}

t分布

とはいえ、母分散  {\sigma^2} が既知という状況は考えにくい。そこで不偏分散を利用して、

{ \displaystyle
 t = \frac{\overline{X}-\mu}{ \sqrt{ \frac{s^2}{n} } }
}

とする。この分布の特徴を知るために、母分散  {\sigma^2} を使って変形すると

{ \displaystyle
 \frac{\overline{X}-\mu}{ \sqrt{ \frac{\sigma^2}{n} }\sqrt{ \frac{s^2}{\sigma^2} } } = \frac{\overline{X}-\mu}{ \sqrt{ \frac{\sigma^2}{n} } }  \cdot \frac{1}{\sqrt{ \frac{(n-1)s^2}{\sigma^2 } } } \cdot \frac{1}{\sqrt{ \frac{1}{n-1}}}
}

 { N(1,0)}{ \chi^2(n-1)} との比になっている。さらに自由度 {n-1}{ t(n-1)} に従っている。

{ n \to \infty } のときに  {s^2 = \sigma^2} なので  { N(0,1)} と一致する。