野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

統計検定 - 2級の過去問に挑戦

試しに統計検定の2級の過去問(2014/6)に挑戦。

(追記) 学問所薫塾:統計検定2級講座 で解説が公開されていました。

答え合わせ

正解の選択肢は公開されているが解説はないので答え合わせがてらまとめてみた。

  • 問1 幹葉図
    • 四分位範囲
      • 平均が意味をなさない場合に中央値に対する散らばりの尺度として利用
      • 25%,50%,75%をQ1,Q2,Q3とおくと、四分位範囲は、Q3-Q1
    • 中央値は0.4億円、四分位範囲は、2.4-0.2=2.2、平均は0.6億円。
  • 問2 度数分布表
    • 各階級値で平均を取る。
> sum(c(2*25,6*35,17*45,13*55,10*65,6*75,9*85,9*95))/72
[1] 61.94444

{ \displaystyle
s=\sqrt{ \frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n-1} }=\sqrt{ \frac{\sum_{i=1}^{n}x_i^2 - \frac{1}{n} (\sum_{i=1}^{n}x_i)^2}{n-1}}
}

> d<-c(60,90,80,90,90,80,80,70,80,20)
> sd(d)
[1] 21.187
> sqrt((sum(d^2)-sum(d)^2/10)/(10-1)) #手で計算する場合
[1] 21.187
  • 問4 データの散らばり
    • 変動係数を求める
  • 問5 2変数のプロット
  • 問6 確率変数

 { V[X] = E[(X-\mu)^2]} { = E[X^2]- E[X]^2 }

  • 問7 確率・乗法定理

{ \displaystyle
P(A \cup B) = P(A) + P(B) - P(A \cap B)
}

{ \displaystyle
 P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)
}

  • 問8 確率変数の分散

 { V[X] = E[X^2]- E[X]^2 }

 {
= \int_{0}^{2}x^2\cdot0.5x dx - \left( \int_{0}^{2}x\cdot0.5x dx \right)^2
}

  • 問9 標準化

{ \displaystyle
 Z = \frac{x - \mu}{\sigma}
}

偏差値の定義は { T = 10Z + 50  }

{ P_z( 0.6 \leq x \leq 1) = P_z( 0.6 ) - P_z(1) }

  • 問10 母集団比率の信頼区間
    • ある調査会社は,(中略) 選択肢 「はい」「いいえ」として経年調査を行っている。(中略) 従来の標本サイズ 600 をもっと小さくすることを計画した。 母集団に変わりがないとき,標本サイズを 300 とした場合にはどういう結果をもたらすか。 
      • 「はい」と回答する割合の信頼区間の幅は 600 人の場合と比べて約 1.4 倍に なると期待される(正解の選択肢)。
    • 信頼区間

{ \displaystyle
z = \frac{\hat{p} -p }{\sqrt{p(1-p)/n}} \sim N(0,1)
}

から

{ \displaystyle
 \left[ \hat{p} -Z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n} , \hat{p} + Z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\right]
}

  • 問11 母平均の差の検定
    • この工場の2つの部署でそれぞれ起こった 1日あたりの事故数yについて200日間記録した。この期間内での,部署 A の事故数の平均 y ̄A は 11.8 件,標準偏差 sA は 2.4 件であり,部署 B の事故数の平均 y ̄B は 8.1 件,標準偏差 sB は 2.0 件であった。(中略) 2つの部署間で事故数に違いがあるかどうか検討することにした。(中略)母分散が等しいと仮定して有意水準 5% で評 価するものとする。
    • 母分散が未知だが等しいという仮定から

{ \displaystyle
Z = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\left( \frac{1}{m}+\frac{1}{n}\right)\sigma^2}} \sim t_(m+n-2)
}

となる。合成された分散は、それぞれの不偏標本分散 {s_1^2,s_2^2} を用いて

{\displaystyle
 s^2 = \frac{ \sum_{i=1}^{m}(X_i-\overline{X})^2+\sum_{j=1}^{n}(Y_i-\overline{Y})^2 }{m+n-2} = \frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2}
}

{\displaystyle
=  \frac{(200-1)s_1^2+(200-1)s_2^2}{200+200-2} = \frac{199(s_1^2+s_2^2)}{398} = \frac{s_1^2+s_2^2}{2}
}

  • 問12 ベイズの定理
    • 乗法定理から

{ \displaystyle
 P(B|不良) = \frac{P(不良|B)P(B)}{P(不良)} = \frac{P(不良|B)P(B)}{P(不良|A)P(A)+P(不良|B)P(B)}
}

{ \displaystyle
  = \frac{0.05\cdot0.4}{0.01\cdot0.6+0.05\cdot0.4} = 0.7692308
}

  • 問13 二項分布
    • 帰無仮説として「このサイコロの 3 の目の出る確率は 6 分の 1 である」を用い,有意水準 5% で仮説検定を行ったとき,結論として正しい判断をしているも のはどれか。
      • 3 の目が 4 回以上出る確率は 5% より小さい。したがって,帰無仮説を棄 却して,公正なサイコロでないと結論する(正解の選択肢)。
      • 3 の目がちょうど 4 回出る確率は 0.015629 となり,5% より小さい。した がって,帰無仮説を棄却して,公正なサイコロでないと結論する。
  • 問14 仮説検定

    • 統計的推測では,母集団からの標本として得られたデータを用いて,測定値を得た対象だけに限定することなく,母集団について何らかの判断を下す方法論を扱っ ている。統計的推測は大きく 2 つに分けられる。推定検定である。検定は,はじめに母集団に対して帰無仮説と呼ばれる特定の仮説を設定し,観測したデータがこ の仮説を否定するかどうかを調べる手法である。このとき,仮説を支持するか否か は,確率を伴う判断が必要となる。帰無仮説が正しいにも関わらず,帰無仮説を否定してしまう確率をある値以下にする必要がある。この値を有意水準と呼ぶ。有意水準を決めることで,棄却域と呼ばれる判定のための領域を決めることができる。
    • 他の選択肢は、帰無仮説が正しいのに棄却される確率は第 1 種の過誤
  • 問15 母平均の検定

    • このチェーン店ではアンパンを 1 個 105g で作ることになっている。(中略) そこで本部の調査部が支店 A のアンパン 26 個を無作為に選び重さを量っ たところ,平均 106g,標準偏差 2g であった。支店長の言い分は認められるか。
    • 帰無仮説 - この支店のアンパンの平均の重さは 105g である。
> (106-105)/(2/sqrt(26))
[1] 2.54951
> qt(0.95, (26-1))
[1] 1.708141
> qt(0.975, 25)
[1] 2.059539

信頼区間は

{ \displaystyle
\left[ \overline{X}-t_{\alpha/2(n-1)}\frac{s}{\sqrt{n}},\overline{X} + t_{\alpha/2(n-1)}\frac{s}{\sqrt{n}} \right]
}

  • 問16 母集団比率

    • この地区の居住者の男女比は 50:50 であり,集計した回答者の男女比は 40:60 であった。回答者の男女比が居住者の男女比と同じとみなせるか調べたい。
      • 女性の比率が 0.5 とみなせればよいので,女性の比率について差 0.6 − 0.5 を求め,母集団比率に関する検定を行う(正解の選択肢)
    • 男性と女性でイベント内容の満足度について違いがあるかどうか調べたい。
      • 性別と満足度について分割表を作成して,独立性の検定を行う(正解の選択肢)
  • 問17 分割表

    • 独立性に関する検定
      • χ2 値は 0.833+0.833+1.25+1.25=4.166 であり,自由度 1 の χ2 分布 の 5% 点である 3.84 より大きいので,今回の度数の差が起こるのは 5% よ り小さな確率となる。したがって,年齢層により製品の好みに差があると 結論する(正解の選択肢)。
      • 観測度数、期待度数をそれぞれ {O_{ij},E_{ij}} とすると

{ \displaystyle
 \chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{r} \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \sim  \chi^2_{(r-1)(c-1)}
}

> qchisq(0.95,1)
[1] 3.841459
  • 問18 回帰分析
    • 自由度調整済み決定係数 - データサイズが小さい場合に決定係数 { R^2} が大きくなるため、見かけではなくて実体としての自由度を考慮したもの
      • どのような説明変数を選択するのかの基準として用いる。

参考

1級は全く歯が立たない感じだが、準1級が新設されるらしい(統計検定HPの新着情報より)。公開されたらそちらにも挑戦してみたい。