プログラミング

統計学に出てくる式まとめ

統計検定の勉強していて、色々な公式が出てくるのでブログにまとめておいて見返せるようにします。(筆者は統計検定2級合格の為に勉強中……)

統計学で使う公式、証明をまとめていきます。

網羅はしてませんが、統計検定に出やすいものを選んでいます。

資料

標本平均

とても一般的

$$\bar{X}=\frac{1}{n}\sum_{i=1}^n x_i$$

標本分散

こちらは平均との誤差の二乗の平均

$$s^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{X})^2$$

標準偏差

分散の平方根です。
$$s=\sqrt s^2$$

相関係数

$$
r=\frac{s_{x y}}{s_{x} s_{y}}=\frac{\sum_{i=1}^n\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_{i}-\overline{x}\right)^{2}} \sqrt{\sum_{i=1}^n\left(y_{i}-\overline{y}\right)^{2}}}
$$

指数

$$p_{0i}=基準年の価格, q_{0i}=基準年の数量, p_{ti}=比較年の価格, q_{ti}=比較年の数量$$

ラスパイレス指数

基準年を重みにします。
$$P_L=\frac{\sum_{i=1}^n p_{ti}q_{oi}}{\sum_{i=1}^n p_{oi}q_{oi}}\times 100$$

パーシェ指数

比較年を重みにします。
$$P_P=\frac{\sum_{i=1}^n p_{ti}q_{ti}}{\sum_{i=1}^n p_{oi}q_{ti}}\times 100$$

フィッシャー指数

YouTuberではなく、ラスパイレス指数とパーシェ指数の幾何平均です。
$$\sqrt{P_L P_P}$$

確率

資料で出てきた公式に確率変数pが掛けられてるものが多いです。

基本的には資料で使われる式と変わりありません。

母平均、期待値

$$μ=母平均, E(X)=期待値$$
$$μ=E(X)=\frac{1}{n}\sum_{i=1}^n x_ip_i$$
こちらでも表せます。
$$V(X)=E((X-μ)^2)$$
母平均、期待値は同じです。(確率の場合)
少し応用した式の解き方を書きます。
$$\begin{eqnarray}
E(aX+b)&=&\frac{1}{n}\sum_{i=1}^n(ax_i+b)p_i\nonumber\\
&=&\frac{1}{n}\sum_{i=1}^n (a_i x_i p_i + bp_i) \nonumber\\
&=&\frac{a}{n}\sum_{i=1}^n (x_ip_i) + \frac{b}{n} \sum_{i=1}^n(p_i)\nonumber\\
&=&aE(X)+b
\end{eqnarray}$$

母分散

$$σ^2=V(X)=\frac{1}{n}\sum_{i=1}^n (x_i-μ)^2p_i$$

母平均μと実測値Xの差の二乗と確率変数pの積の総和です。

別の式にもできます。
$$V(X)=E[(X-μ)^2]=E(X^2)-2μE(X)+μ^2\\=E(X^2)-E(X)^2$$
分散でも応用した式を紹介します。
$$\begin{eqnarray}
V(aX+b)&=&E((aX+b)-E(aX+b)^2) \nonumber\\
&=&E((aX+b-aE(X)+b)^2)\nonumber\\
&=&a^2E((X-E(X))^2)\nonumber\\
&=&a^2V(X)
\end{eqnarray}$$
もう一つ
$$\begin{eqnarray}
V(X+Y)&=&E[((X+Y)-(μx+μy))^2] \nonumber\\
&=&E[(X-μx)^2+(Y-μy)^2+2E(X-μx)(Y-μy)]\nonumber\\
&=&V(X)+V(Y)+2Cov(X,Y)
\end{eqnarray}$$

標準偏差

母分散がσ^2だったのに対して、標準偏差は分散の平方根です。

$$σ=\sqrtσ^2$$

共分散

下のXとYについての期待値は
$$E(X)=μx ~~~ E(Y)=μy$$
と定義します。
$$\begin{eqnarray}
Cov(X,Y)&=&E[(X-μx)(Y-μy)]\nonumber \\
&=&E(XY-μxY-μyX+μxμy)\nonumber \\
&=&E(XY)-μxE(Y)-μyE(X)+μxμy\nonumber\\
&=&E(XY)-μxμy-μxμy+\mu xμy\nonumber\\
&=&E(XY)-μxμy\nonumber\\
&=&E(XY)-E(X)E(Y)
\end{eqnarray}$$
長くなりましたが、式を展開させることで共分散を求められます。

相関係数

$$ρ=\frac{Cov(X,Y)}{\sqrt{V(X)V(Y)}}$$

仮説検定

H0:帰無仮説

H1:対立仮説

α:有意水準(%)

有意水準は5%か1%の場合がほとんどです。

信頼区間

XバーはN(μ, σ^2/n)の正規分布に従っているので、標準化した式を使って信頼区間を求めます。

母平均の信頼区間

Xバーに自由度n-1のt分布を足したり引いたりすれば求まります。

$$[\bar{X}-t_{a/2}(n-1)\sqrt{\frac{σ^2}{n}},\bar{X}+t_{a/2}(n-1)\sqrt{\frac{σ^2}{n}}]$$

母平均の差の信頼区間

$$[\bar{X}-\bar{Y}-t_{a/2}(m+n-2)s\sqrt{\frac{1}{m}+\frac{1}{n}}, \bar{X}-\bar{Y}+t_{a/2}(m+n-2)s\sqrt{\frac{1}{m}+\frac{1}{n}}]$$

母分散の比の信頼区間

母分散の比は(m-1, n-1)のF分布に従います。
$$[F_{1-a/2}(m-1, n-1)s_2^2/s_1^2, F_{a/2}(m-1, n-1)s_2^2/s_1^2]$$

検定

母平均の仮説検定

$$t=\frac{\bar{X}-μ}{s/\sqrt{n}}$$
$$|t|>t_{a/2}(n-1)だったらH_0を棄却する$$
$$|t|\le t_{a/2}(n-1)だったらH_0を棄却しない$$

母分散の仮説検定

分散の仮説検定にはχ^2分布を用います。
$$χ^2=(n-1)s^2/σ_0^2$$
$$対立仮説がH_1:σ^2 \neq σ_0^2のとき、\\ χ_{1-a/2}^2(n-1)<χ^2<χ_{a/2}^2(n-1)のときはH_0を棄却しない。$$
$$対立仮説がH_1:σ^2>σ_0^2のとき、\\χ^2>χ_{a}^2(n-1)のときH_0を棄却する$$
$$対立仮説がH_1:σ^2<σ_0^2のとき、\\χ^2<χ_{a}^2(n-1)のときH_0を棄却する。$$

母平均の差の仮説検定

$$t=\frac{\bar{X}-\bar{Y}}{s\sqrt{\frac{1}{m}+\frac{1}{n}}}$$
$$対立仮説がH_1:μ_1\neq μ_2のとき、\\ |t|>t_{a/2}(m+n-2)のときはH_0を棄却する。$$
$$対立仮説がH_1:μ_1>μ_2または、H_1:μ_1<μ_2のとき、\\ 前者はt>t_a(m+n-2)、後者はt<-t_a(m+n-2)のときはH_0を棄却する$$

母分散の比の仮説検定

$$H_0:σ_1^2=σ_2^2 \\ H_1:σ_1^2\neq σ_2^2$$
$$H_0のもとでのフィッシャーの分散比をF=s_1^2/s_2^2とする。\\ s_1^2=\sum_{i=1}^n(X_i-\bar{X}), s_2^2=\sum_{j=1}^m(Y_j-\bar{Y})^2(n-1)$$
$$F_{1-a/2}(m-1, n-1)\le F \le F_{a/2}(m-1, n-1)\\ のときはH_0を棄却しない。$$

検出力

H0が正しいH1が正しい
H0を棄却しない正しい第二種の過誤
H0を棄却する第一種の過誤正しい

有意水準(α):帰無仮説を棄却する基準になり、第一種の過誤を犯す確率でもある

検出力(1-β):正しく帰無仮説を棄却する確率

β:第二種の過誤を犯す確率

2017年の11月の統計検定2級の問題に検出力の問題が出たので、復習しておきましょう。(あまり使わないから忘れやすい)

まとめ

統計では覚える公式は多いですが、どうしてこの式になるのかを理解してないと問題には対応できません。(実際にそうだった)仮説検定は統計検定2級の後半に頻出されます。問題自体は簡単でも、公式や定義の本質をついてくる問題が多いのでただ表面的に式を暗記するのはオススメできません。

今は自分でメモしたルーズリーフや統計WEBに載っている式や自分で載せたい式をまとめました。

今後もしかしたらポアソン分布についてや確率についても増やすかもしれません。

意見、アドバイス等ありましたらコメントにお書きください。

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です