読者です 読者をやめる 読者になる 読者になる

野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

標本分布 - 標本の期待値と分散

標本抽出の種類

  • 単純無作為抽出法 (simple random sampling)
    • 母集団から同確率で無作為に抽出。どの個体が選択される際も等確率の必要あり。
  • 系統抽出法 (systematic sampling)
    • 全要素を採番し等間隔で抽出。
  • 層化無作為抽出 (stratified sampling)
    • 母集団を複数の層に分割し各層から無作為に抽出。層内が均質なら誤差分散は小。
  • 多段抽出法 (multi-stage sampling)
    • 抽出単位を何段階かに分けて抽出。段数が増えると精度は低下する。
  • クラスター抽出法 (cluster sampling)
    • 網羅的に小集団(クラスター)に分割しその成員全てを抽出。

続いて確率変数の期待値と分散の性質。

確率変数の期待値と分散

期待値の性質

  •  { \displaystyle E[c] = c }
  •  { \displaystyle E[X+c] = E[X] + c }
  •  { \displaystyle E[cX] = cE[X] }
  •  { \displaystyle E[X + Y] = E[X] + E[Y] } (期待値の加法性)

分散の定義

この性質を使って、{\textstyle  E[X]=\mu } とすると分散の定義が、

 { V[X] = E[(X-\mu)^2]}

{ = E[X^2]- 2\mu E[X] + \mu^2 }

{ = E[X^2]- \mu^2 }

{ = E[X^2]- E[X]^2 }

となる。

分散の性質

  •  { \displaystyle V[c] = 0 }
  •  { \displaystyle V[X+c] = V[X] }
  •  { \displaystyle V[cX] = c^2V[X] }

分散の値を、{\textstyle V[X]=\sigma^2 }標準偏差{\textstyle D[X] = \sqrt{ V[X] } = \sigma}で表すことが多い。

標本平均と標本分散(sample mean sample variance)

標本 { t(X_1,X_2,\cdots, X_n) } が得られたとして、その母集団分布の母平均 { \textstyle \mu } 母分散 { \textstyle \sigma^2} のパラメータを標本平均 {\overline{X}} と標本分散 {s^2} から推測する。

{ \displaystyle \overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}}

{ \displaystyle s^2 = \frac{1}{n-1} \sum_{i=1}^{n}\left( X_i - \overline{X} \right)^2
}

{ (n-1) } で割った分散を不偏分散と呼び、これは、{ \sigma^2}の不偏推定量となる。

標本平均の期待値と分散

{ \displaystyle
E\left[\overline{X}\right] = E\left[ \frac{X_1 + X_2 + \cdots + X_n}{n} \right] = \frac{n\mu}{n} = \mu
}

{ \displaystyle
V\left[\overline{X}\right] = V\left[ \frac{X_1 + X_2 + \cdots + X_n}{n} \right] = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}
}

これは、{ n \to \infty } のとき平均の分散が0に近づくことを示している(大数の法則)。 標本平均の分散が、母分散をnで割ったものになっている。

不偏分散(unbiased variance)

不偏とは推定量の期待値が母数の値になること。つまり  { E[s^2] = \sigma^2 } となる。

{ \displaystyle
\sum_{i=1}^{n} \left( X_i - \overline{X} \right)^2 = \sum_{i=1}^{n} \left\{ \left( X_i - \mu\right) - \left( \overline{X} - \mu \right) \right \}^2
}

{ \displaystyle
= \sum_{i=1}^{n} \left( X_i - \mu \right)^2 - 2 \left( \overline{X} - \mu \right) \sum_{i=1}^{n} \left( X_i - \mu \right) + n \left( \overline{X} - \mu \right)^2
}

{ \displaystyle
= \sum_{i=1}^{n} \left( X_i - \mu \right)^2 - 2n \left( \overline{X} - \mu \right) \left( \overline{X} - \mu \right) + n \left( \overline{X} - \mu \right)^2
}

{ \displaystyle
= \sum_{i=1}^{n} \left( X_i - \mu \right)^2 - n \left( \overline{X} - \mu \right)^2
}

なので、

{ \displaystyle
E[s^2] = \frac{1}{n-1} \left\{
E\left[ \sum_{i=1}^{n} \left( X_i - \mu \right)^2\right] - E\left[n\left( \overline{X} - \mu \right)^2\right
]
\right\}
}

{ \displaystyle
= \frac{1}{n-1} \left\{ n\sigma^2 - n \frac{\sigma^2}{n}\right\} = \frac{(n-1)\sigma^2}{n-1}= \sigma^2
}

仮に標本分散が(n-1)でなくnで割ったものを用いると

{ \displaystyle S^2 = \frac{1}{n} \sum_{i=1}^{n}\left( X_i - \overline{X} \right)^2
}

{ \displaystyle
E[S^2] = \frac{(n-1)\sigma^2}{n}
}

と分散が小さく評価されてしまう。よって統計学では不偏分散の方がよく用いられる。