「分散 (確率論)」の版間の差分

削除された内容追加された内容

インライン

2024年9月23日 (月) 05:44時点における版

数学の統計学における分散（ぶんさん、英: variance）とは、データ（母集団、標本）、確率変数（確率分布）の標準偏差の自乗のことである。分散も標準偏差と同様に散らばり具合を表し^[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差の2乗の平均に等しい。データ $x 1, x 2, \dots, x n$ の分散 $s 2$ は

s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}

ここで

x

は平均値を表す。

分散が $0$ であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 $X$ の分散 $V [X]$ ^{[注 1]}は、 $X$ の期待値を $E [X]$ で表すと

V [X] = E [(X - E [X]) 2]

となる^[2]。確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散（ひょうほんぶんさん、英: sample variance）を、推計統計学においては不偏分散（ふへんぶんさん、英: unbiased variance）・不偏標本分散（ふへんひょうほんぶんさん、英: unbiased sample variance）を用いる。

言葉の由来

英語の variance（バリアンス）という語はロナルド・フィッシャーが1918年に導入した^[3]。

確率変数の分散

2乗可積分確率変数 $X$ の分散は期待値を $E [X]$ で表すと

V[X]=E{\big [}(X-E[X])^{2}{\big ]}

で定義される。これを展開して整理すると

{\begin{alignedat}{5}V[X]&=E{\big [}(X-E[X])^{2}{\big ]}\\&=E{\big [}X^{2}-2XE[X]+(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E{\big [}XE[X]{\big ]}+E{\big [}(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E[X]E[X]+(E[X])^{2}(\because E[X]=Const)\\&=E[X^{2}]-(E[X])^{2}\\\end{alignedat}}

とも書ける。また確率変数 $X$ の特性関数を $φ X (t) = E [e itX]$ とおくと（ $i$ は虚数単位）、これは 2階連続的微分可能で

V[X]=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}

と表示することもできる。

チェビシェフの不等式から、任意の正の数 $ε$ に対して

P(|X-E[X]|>\varepsilon )\leq {\frac {V[X]}{\varepsilon ^{2}}}

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

性質

$X, X 1, \dots, X n$ を確率変数、 $a, b, a 1, \dots, a n$ を定数とし、共分散を $Cov[ \cdot , \cdot ]$ で表すと

$V[X]\geq 0$ （非負性）
$V[X+b]=V[X]$ （位置母数（英語版）に対する不変性）
$V[aX]=a^{2}V[X]$ （斉次性）
$V{\bigl [}\textstyle \sum \limits _{i}a_{i}X_{i}{\bigr ]}=\sum \limits _{i,j}a_{i}a_{j}\operatorname {Cov} [X_{i},X_{j}]$

を満たす。したがって、特に $X 1, \dots, X n$ が独立ならば、

\operatorname {Cov} [X_{i},X_{j}]={\begin{cases}V[X_{i}]&(i=j)\\0&(i\neq j)\end{cases}}

より

V[X_{1}+\dotsb +X_{n}]=V[X_{1}]+\dotsb +V[X_{n}]

が成り立つ。

例

確率変数 $X$ が一様分布 $U (a, b)$ に従うとき、 $V[X] = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}(b − a)2/12$
確率変数 $X$ が正規分布 $N (μ, σ 2)$ に従うとき、 $V [X] = σ 2$
確率変数 $X$ が二項分布 $B (n, p)$ に従うとき、 $V [X] = np (1 - p)$
確率変数 $X$ がポアソン分布 $Po(λ)$ に従うとき、 $V [X] = λ$

データの分散

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

母分散

大きさが $n$ である母集団 $x 1, x 2, \dots, x n$ に対して、平均値を $μ$ で表すとき、偏差の自乗の平均値

\sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}

を母分散（ぼぶんさん、英: population variance）と言う^[4]。

標本分散・不偏標本分散

母集団の平均が $\mu$ 、分散が $\sigma ^{2}$ のとき、大きさが $n$ である標本 $x 1, x 2, \dots, x n$ に対して、標本の平均値を $x$ で表すとき、偏差の自乗の平均値

s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

で定義される $s 2$ を標本分散（ひょうほんぶんさん、英: sample variance）と言う。 $s$ は標準偏差と呼ばれる^[4]。

定義より、

s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である（あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summation（英語版）のような手法により、誤差を小さくする工夫がなされることもある）。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 $E [s 2]$ について、

E[s^{2}]=E[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}]=E[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu -({\bar {x}}-\mu ))^{2}]

={\frac {1}{n}}E[\sum _{i=1}^{n}(x_{i}-\mu -{\frac {1}{n}}\sum _{j=1}^{n}(x_{j}-\mu ))^{2}]

={\frac {1}{n}}E[\sum _{i=1}^{n}({\frac {n-1}{n}}(x_{i}-\mu )-{\frac {1}{n}}\sum _{j\neq i}(x_{j}-\mu ))^{2}]

={\frac {1}{n}}\sum _{i=1}^{n}E[{\frac {(n-1)^{2}}{n^{2}}}(x_{i}-\mu )^{2}+{\frac {1}{n^{2}}}\sum _{j\neq i}(x_{j}-\mu )^{2}]

+{\frac {2}{n}}\sum _{i=1}^{n}E[-{\frac {n-1}{n^{2}}}(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}(x_{j}-\mu )(x_{k}-\mu )]

={\frac {1}{n}}\sum _{i=1}^{n}[{\frac {(n-1)^{2}}{n^{2}}}E[(x_{i}-\mu )^{2}]+{\frac {1}{n^{2}}}\sum _{j\neq i}E[(x_{j}-\mu )^{2}]]

+{\frac {2}{n}}\sum _{i=1}^{n}[-{\frac {n-1}{n^{2}}}E[(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )]+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}E[(x_{j}-\mu )(x_{k}-\mu )]]

ここで、

E[(x_{i}-\mu )^{2}]=E[(x_{j}-\mu )^{2}]=\sigma ^{2}

x_{i}

、

x_{j}

、

x_{k}

は独立のため、

E[(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )]=E[x_{i}-\mu ]E[\sum _{j\neq i}(x_{j}-\mu )]=0

E[(x_{j}-\mu )(x_{k}-\mu )]=E[x_{j}-\mu ]E[x_{k}-\mu ]=0

となるのため、

E[s^{2}]={\frac {1}{n}}\sum _{i=1}^{n}({\frac {(n-1)^{2}}{n^{2}}}\sigma ^{2}+{\frac {n-1}{n^{2}}}\sigma ^{2})={\frac {n-1}{n}}\sigma ^{2}

が成り立つ。

そこで

{\hat {\sigma }}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {n}{n-1}}s^{2}

を用いると、

E[{\frac {1}{n-1}}\sum _{1}^{n}(x_{i}-{\bar {x}})^{2}]=\sigma ^{2}

となり、期待値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散（ふへんひょうほんぶんさん、英: unbiased sample variance）や不偏分散（ふへんぶんさん、英: unbiased variance）と呼ぶ^[4]。

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散（英: biased sample variance）と言う。

「偏り」も参照

なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

注釈

^ 分散を $Var[X]$ と書く場合もある。

出典

^ 西岡 2013, 1.8 分散.
^ JIS Z 8101-1 : 1999, 1.13 分散.
^ “Earliest Known Uses of Some of the Words of Mathematics (V)”. 2016年1月24日閲覧。
^ ^a ^b ^c 栗原 2011, p. 47.

@@ 79行目: / 79行目: @@
 となるから、標本分散は2乗の[[算術平均|平均値]]と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には[[誤差#桁落ち|桁落ち]]が起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である（あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫がなされることもある）。
-一般に、標本分散の期待値は[[#母分散|母分散]]と一致せず、母分散より小さくなる。これは、母分散は母平均との偏差で算出されるのに対し、標本分散では標本平均との偏差で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの[[無作為標本]]に対して、標本分散の期待値 {{math|''E''[''s''{{sup|2}}]}} について、
+一般に、標本分散の期待値は[[#母分散|母分散]]と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの[[無作為標本]]に対して、標本分散の期待値 {{math|''E''[''s''{{sup|2}}]}} について、
 :<math>E[s^2] = E[\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2]= E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu-(\bar{x}-\mu))^2] </math>
 :<math>= \frac{1}{n}E[\sum_{i=1}^n(x_i-\mu-\frac{1}{n}\sum_{j=1}^n (x_j-\mu))^2]</math>
@@ 85行目: / 85行目: @@
 :<math>= \frac{1}{n}\sum_{i=1}^n E[\frac{(n-1)^2}{n^2}(x_i-\mu)^2+\frac{1}{n^2}\sum_{j\ne i} (x_j-\mu)^2]</math>
 :<math>+\frac{2}{n}\sum_{i=1}^n E[-\frac{n-1}{n^2}(x_i-\mu)\sum_{j\ne i} (x_j-\mu)+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}(x_j-\mu)(x_k-\mu)]</math>
-:<math>= \frac{1}{n}\sum_{i=1}^n {\frac{(n-1)^2}{n^2}E[(x_i-\mu)^2]+\frac{1}{n^2}\sum_{j\ne i} E[(x_j-\mu)^2]}</math>
+:<math>= \frac{1}{n}\sum_{i=1}^n [\frac{(n-1)^2}{n^2}E[(x_i-\mu)^2]+\frac{1}{n^2}\sum_{j\ne i} E[(x_j-\mu)^2]]</math>
-:<math>-\frac{2}{n}\sum_{i=1}^n {\frac{n-1}{n^2}E[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)]
+:<math>+\frac{2}{n}\sum_{i=1}^n [-\frac{n-1}{n^2}E[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)]
-+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}E[(x_j-\mu)(x_k-\mu)]}</math>
++\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}E[(x_j-\mu)(x_k-\mu)]]</math>
 ここで、
 :<math>E[(x_i-\mu)^2]=E[(x_j-\mu)^2]=\sigma^2</math>