読者です 読者をやめる 読者になる 読者になる

野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

区間推定 - 母平均・母分散・母平均の差・母分散の比

区間推定とは

真の母数 {\theta} がある区間 {(L,U)} に入る確率を {1-\alpha} 以上になるように保証するような {L}{U} を求めること。

  • {1-\alpha} を信頼係数(confidence coefficient)。通常95%や99%など。
  • 区間 {[L,U]}{ 100(1-\alpha)\% } 信頼区間(confidence interval) と呼ぶ

{1-\alpha} の確率で {\theta} となるという意味ではない。多くの標本で {\theta} 計算したところ区間内に入るものの割合が {1-\alpha} となるという意味。

母平均の区間推定

標本 {X_1,X_2,\cdots,X_n }{N(\mu,\sigma^2)} に従うとき母平均 {\mu} の信頼区間は、 標本平均が {N(\mu,\frac{\sigma^2}{n})} に従うので、

{ \displaystyle
 P\left(-Z_{\alpha/2} \leq \frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \leq Z_{\alpha/2} \right) = 1 - \alpha
}

{ \displaystyle
 P\left(\overline{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) = 1 - \alpha
}

信頼区間は、

{ \displaystyle
 \left[ \overline{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X} + Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right]
}

例えば、95%の信頼区間だと {Z_{\alpha/2}} は1.96となる。現実的には、{ \sigma^2} が未知のときの方が多いはず。不偏分散 {s^2} を使う。nが大きいときは {s} を先ほどの式に入れてもよいが、nが小さいときは、自由度 {n-1} のt分布を用いる

{ \displaystyle
\left[ \overline{X}-t_{\alpha/2(n-1)}\frac{s}{\sqrt{n}},\overline{X} + t_{\alpha/2(n-1)}\frac{s}{\sqrt{n}} \right]
}

母分散の区間推定

{\chi^2}分布のときに登場した式は、自由度 {n-1}{ \chi^2(n-1)} に従う。

{\displaystyle
 P\left(\chi_{1-\alpha/2(n-1)}^2 \leq \frac{(n-1)}{\sigma^2}s^2 \leq \chi_{\alpha/2(n-1)}^2 \right) = 1 - \alpha
}

これを {\sigma^2} について解くと、母分散の信頼区間は、

{\displaystyle
\left[\frac{(n-1)s^2}{\chi_{\alpha/2(n-1)}^2}, \frac{(n-1)s^2}{\chi_{1-\alpha/2(n-1)}^2} \right]
}

母平均の差の区間推定

2つの標本が、{N(\mu_1,\sigma_1^2), N(\mu_2,\sigma_2^2)} に従うとき、母平均の差 {\mu_1 - \mu_2} を分析する。

母分散が既知のとき

標本平均は、

{ \displaystyle
 \overline{X}=\frac{1}{m}\left( X_1+X_2+\cdots+X_m\right) \sim N(\mu_1,\sigma_1^2/m)
}

{ \displaystyle
 \overline{Y}=\frac{1}{n}\left( Y_1+Y_2+\cdots+Y_n\right)  \sim N(\mu_2,\sigma_2^2/n)
}

分散の加法性の性質から { X, Y } が独立のとき、{ V(X \pm Y) = V(X) + V(Y) } なので、 {\overline{X} - \overline{Y}} の分布は、{N(\mu_1-\mu_2, \sigma_1^2 / m + \sigma_2^2 / n )} と表せる。

標準化すると

{ \displaystyle
 Z = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(\sigma_1^2/m)+(\sigma_2^2/n)}}
}

母平均の差 { \mu_1-\mu_2 } の信頼区間は、

{\displaystyle
 \left[ (\overline{X}-\overline{Y}) - Z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}, (\overline{X}-\overline{Y}) + Z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}  \right]
}

母分散が未知だが等しいとき

{\sigma_1^2=\sigma_2^2}=\sigma^2 のとき {\overline{X} - \overline{Y}} の分布は、{N\left(\mu_1-\mu_2, \sigma^2 (1 / m + 1/ n ) \right)} と表せる。

標準化すると

{ \displaystyle
Z = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)\sigma^2}}
}

分散が未知なので標本分散を用いて {\sqrt{s^2/\sigma^2}} で割って t分布 を用いる。

それぞれの不偏標本分散 {s_1^2,s_2^2} を用いて

{\displaystyle
 s^2 = \frac{ \sum_{i=1}^{m}(X_i-\overline{X})^2+\sum_{j=1}^{n}(Y_i-\overline{Y})^2 }{m+n-2} = \frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2}
}

としてする。これは合弁した分散 (pooled variance) と呼ばれる。

{ \displaystyle
t = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)s^2}}
}

これは、自由度 {(m+n-2)} のt分布に従う。信頼区間は、

{\displaystyle
 \left[ (\overline{X}-\overline{Y}) - t_{\alpha(m+n-2)}\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)s^2} , (\overline{X}-\overline{Y}) + t_{\alpha/2(m+n-2)}\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)s^2}  \right]
}

母分散が未知で等しくないとき

先ほどの

{ \displaystyle
Z = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)\sigma^2}}
}

を不偏標本分散 {s_1^2,s_2^2} で置き換えた

{ \displaystyle
t = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{m}+\frac{s_2^2}{n}}}
}

が近似的に

{ \displaystyle
\nu = \frac{\left( \frac{s_1^2}{m} +  \frac{s_1^2}{n} \right)^2}{ \frac{(s_1^2/m)}{m-1} + \frac{(s_2^2/m)}{n-1}}
}

に最も近い自由度のt分布に従うことを用いる(Welchの近似法)。

対比較 (paired comparison)

母平均の差の区間推定は独立する2標本に用いる。対応がある場合は、対比較を用いる。差を { d = x - y } とすると

{ \displaystyle
t = \frac{ \overline{d} }{ \sqrt{  \frac{s^2}{n} } } \sim t_{n-1}
}

母分散の比の区間推定

{s_1^2,s_2^2} の相対的な比を用いて、母分散が等しい(等分散)かどうかを調べる。

それぞれの標本分散は、{\chi^2} 分布に従って

{\displaystyle
 (m-1)\frac{s_1^2}{\sigma^2} \sim \chi^2(m-1)
}

{\displaystyle
 (n-1)\frac{s_2^2}{\sigma^2} \sim \chi^2(n-1)
}

となる。F分布は、{ U \sim \chi^2(k_1)} { V \sim \chi^2(k_2)} のときに

{ \displaystyle
 F=\frac{U/k_1}{V/k_2}
}

と定義されるので

{ \displaystyle
\frac{ \frac{(m-1)s_1^2}{\sigma_1^2} \frac{1}{m-1} }{ \frac{(n-1)s_1^2}{\sigma_2^2} \frac{1}{n-1}} = \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2}
}

となる。

{\displaystyle
P\left( F_{1-\alpha/2(m-1,n-1)} \leq \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_2^2}{s_1^2} \leq F_{\alpha/2(m-1,n-1)}\right) = 1 - \alpha
}

信頼区間は、

{\displaystyle
\left[ F_{1-\alpha/2(m-1,n-1)}\frac{s_2^2}{s_1^2}, F_{\alpha/2(m-1,n-1)}\frac{s_2^2}{s_1^2} \right]
}

区間推定の例

母平均の信頼区間の場合、t.testを使う。引数にconf.level=0.99とすると信頼水準を99%にできる。

> t.test(x)

    One Sample t-test

data:  x
t = 70.7841, df = 49, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
  94.7801 100.3190
sample estimates:
mean of x 
 97.54955 

母集団の平均の差を調べる場合は、

> t.test(x, y)

とする。但し、このx,yのデータは対なっていない前提。独立でない場合、つまりx,yのデータに対応がある場合、

> t.test(x, y,pared=TRUE)

とする。実際には、{Xi-Yi} の差を観測値として1標本として扱われている。