野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

区間推定 - 母相関係数・母集団比率

前回の続き。

母相関係数の区間推定

標本から求めた相関係数から母相関係数を推定する。

双曲線関数

{ y = \sinh x, y = \cosh x, y= \tanh x } を 双曲線関数と呼ぶ。

{ \displaystyle
 \sinh x = \frac{e^x-e^{-x}}{2}, \cosh x = \frac{e^x+e^{-x}}{2}, \tanh = \frac{e^x-e^{-x}}{e^x+e^{-x}}
}

{ \displaystyle
 \tanh = \frac{\sinh}{\cosh}
} になっていることがわかる。

双曲線関数

{\tanh }逆関数

{
 \arctan x = \frac{1}{2}\log \frac{1+x}{1-x}
}

となる。ここでは{\arctan} のみ。

フィッシャーのZ変換 (Fisher's z transformation)

標本から求めた相関係数を { r = \frac{s_{xy}}{s_{x}s_{y}} } とすると

{ \displaystyle
 z = \frac{1}{2}\log \frac{1+r}{1-r}
}

として、母相関係数 {\rho}

{ \displaystyle
 \eta = \frac{1}{2}\log \frac{1+\rho}{1-\rho}
}

とすると、nが大きいときに、zは近似的に {N(\eta,1/(n-3))} に従う。

標準化して

{ \displaystyle
 P\left(-Z_{\alpha/2} \leq \frac{z - \eta}{\frac{1}{\sqrt{n-3}}} \leq Z_{\alpha/2} \right) = 1 - \alpha
}

信頼区間は、

{ \displaystyle
 \left[z -Z_{\alpha/2}\cdot\frac{1}{\sqrt{n-3}}, z + Z_{\alpha/2}\cdot\frac{1}{\sqrt{n-3}} \right]
}

変換を戻すには {\tanh} を用いる。

母集団比率の推定

母集団の中に該当する比率 {p} であるを推定する。このとき全体をnとしたときの該当数 { X } は二項分布に従う。 二項分布の期待値と分散は、

{ \displaystyle
E[X]=np\quad V[X] = np(1-p)
}

となる。{p} の推定値として、標本平均の {\hat{p} = x/n} を用いると

{ \displaystyle
E[\hat{p}]=p\quad V[\hat{p}] = p(1-p)/n
}

となる。nが大きいときは、中心極限定理によって近似的に

{ \displaystyle
z = \frac{\hat{p} -p }{\sqrt{p(1-p)/n}} \sim N(0,1)
}

標準正規分布に従う。

{ \displaystyle
 P\left(\hat{p} -Z_{\alpha/2}\sqrt{p(1-p)/n} \leq p \leq \hat{p} + Z_{\alpha/2}\sqrt{p(1-p)/n} \right) = 1 - \alpha
}

nが大きいときは、{\hat{p}}{p} に一致するから、信頼区間は近似的に、

{ \displaystyle
 \left[ \hat{p} -Z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n} , \hat{p} + Z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\right]
}

区間推定の例

Rでの例を見てみる。適当なデータなので表示のイメージだけ。

まずは母相関係数の区間から。

> cor.test(x,y)

    Pearson's product-moment correlation

data:  x and y
t = 1.0874, df = 48, p-value = 0.2823
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.1288514  0.4154734
sample estimates:
      cor 
0.1550575 

信頼区間の中に0が含まれるので相関無い可能性がある(実際無い)。

続いて比率の信頼区間

> prop.test(x,n)

    1-sample proportions test with continuity correction

data:  x out of n, null probability 0.5
X-squared = 9.025, df = 1, p-value = 0.002663
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.1324509 0.4152042
sample estimates:
   p 
0.25 

同様に95%の信頼区間がわかる。