「分散 (確率論)」の版間の差分

削除された内容追加された内容

インライン

2019年7月28日 (日) 16:56時点における版

分散（ぶんさん、英: variance）とは、確率論では、確率変数 $X$ からその母平均 $E (X)$ を引いた2乗の期待値 $σ 2 = V (X) = E [(X - E (X)) 2]$ のこと^[1]。確率変数の2次の中心化モーメントである。確率変数の分布が期待値からどれだけ散らばっているかを示す非負の値である^[2]。

統計学では、記述統計学においては標本が標本平均からどれだけ散らばっているかを示す指標として標本分散（ひょうほんぶんさん、英: sample variance）を、推測統計学においては不偏分散（ふへんぶんさん、英: unbiased variance）・不偏標本分散（ふへんひょうほんぶんさん、英: unbiased sample variance）を用いる。 $0$ に近いほど散らばりは小さい。

言葉の由来

英語の variance（バリアンス）という語はロナルド・フィッシャーが1918年に導入した^[3]。

確率変数の分散

2乗可積分確率変数 $X$ の分散は期待値を $E (\cdot)$ で表すと

V(X)=E{\big (}(X-E(X))^{2}{\big )}

で定義される。また式変形をして

V(X)=E(X^{2})-(E(X))^{2}

とも書ける。また確率変数 $X$ の特性関数を $φ X (t) = E (e itX)$ とおくと（ $i$ は虚数単位）、これは 2 階連続的微分可能で

V(X)=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}

と表示することもできる。

チェビシェフの不等式から、任意の正の数 $ε$ に対して、

P(|X-E(X)|>\varepsilon )\leq {\frac {V(X)}{\varepsilon ^{2}}}

が成り立つ。これは分散が小さくなる程に期待値の近くに変数が分布することを示す大まかな評価である。

性質

$X, X 1, \dots, X n$ を確率変数、 $a, b, a 1, \dots, a n$ を定数とし、共分散を $Cov( \cdot , \cdot )$ で表すと

$V(X)\geq 0$ （非負性）
$V(X+b)=V(X)$ （位置母数（英語版）に対する不変性）
$V(aX)=a^{2}V(X)$ （斉次性）
$\textstyle V(\sum _{i}a_{i}X_{i})=\sum _{i,j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})$

を満たす。したがって、特に $X 1, \dots, X n$ が独立ならば、

\operatorname {Cov} (X_{i},X_{j})={\begin{cases}V(X_{i})&i=j\\0&{\text{otherwise}}\end{cases}}

より

V(X_{1}+\dotsb +X_{n})=V(X_{1})+\dotsb +V(X_{n})

が成り立つ。

例

$X$ を一様分布 $U (a, b)$ に従う確率変数とすると $V(X) = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}(b − a)2/12$
$X$ を正規分布 $N (μ, σ 2)$ に従う確率変数とすると $V (X) = σ 2$
$X$ を二項分布 $B (n, p)$ に従う確率変数とすると $V (X) = np (1 - p)$
$X$ をポアソン分布 $Po(λ)$ に従う確率変数とすると $V (X) = λ$

母分散

$n$ 個のデータ $x 1, x 2, ..., x n$ からなる母集団があって、 $μ$ をそのデータの相加平均とした時に、 $(x i - μ) 2$ の相加平均

{\sigma }^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

で表される $σ 2$ を母分散（ぼぶんさん、英: population variance）と言う^[4]。標本ではなく母集団に対して適用したときに母分散という。標本と母集団の違いはそれぞれの項目を参照。

標本分散

$n$ 個のデータ $x 1, x 2, ..., x n$ からなる標本があって、 $x$ をそのデータの相加平均とした時に、 $(x i - x) 2$ の相加平均

s^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

で定義される $s 2$ を標本分散（ひょうほんぶんさん、英: sample variance）と言う。 $s$ は標準偏差と呼ばれる^[4]。なお、不偏標本分散を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は偏りのある標本分散（英: biased sample variance）と言う。日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している^[5]。

定義より、

s^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}

となるから、標本分散は、2乗の相加平均と相加平均の2乗との差に等しい。従って、この式を用いて分散の計算を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある（桁落ち）。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である（あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summation（英語版）のような手法により、誤差を小さくする工夫が為されることもある）。

不偏分散・不偏標本分散

偏りのある標本分散は、一般にその期待値が母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して

E(s^{2})=\left(1-{\frac {1}{n}}\right)\sigma ^{2}

が成り立つ。そこで推定量として

{\hat {\sigma }}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i})^{2}-{\frac {n}{n-1}}{\bar {x}}^{2}

を用いると、期待値が母分散に等しくなる推定量が得られる。これを母分散の不偏推定量であるとの意味で不偏分散（ふへんぶんさん、英: unbiased variance）や不偏標本分散（ふへんひょうほんぶんさん、英: unbiased sample variance）と呼ぶ^[4]。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。

脚注

^ JIS Z 8101-1 : 1999, 1.13 分散.
^ 西岡 2013, 1.8 分散.
^ “Earliest Known Uses of Some of the Words of Mathematics (V)”. 2016年1月24日閲覧。
^ ^a ^b ^c 栗原 2011, p. 47.
^ JIS Z 8101-1 : 1999, 2.19 標本分散.

@@ 1行目: / 1行目: @@
+'''分散'''（ぶんさん、{{lang-en-short|variance}}）とは、[[確率論]]では、[[確率変数]] {{mvar|X}} からその[[母平均]] {{math|''E''(''X'')}} を引いた2乗の[[期待値]] {{math|1=''σ''<sup>2</sup> = ''V''(''X'') = ''E''[(''X'' &minus; ''E''(''X''))<sup>2</sup>]}} のこと{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。[[確率変数]]の2次の[[モーメント (確率論)|中心化モーメント]]である。確率変数の[[確率分布|分布]]が[[期待値]]からどれだけ散らばっているかを示す非負の値である{{sfn|西岡|2013|loc={{google books quote|id=AUY2AgAAQBAJ|page=16|1.8  分散}}}}。
+[[統計学]]では、[[記述統計学]]においては[[標本 (統計学)|標本]]が[[平均|標本平均]]からどれだけ散らばっているかを示す[[指標]]として'''標本分散'''（ひょうほんぶんさん、{{lang-en-short|sample variance}}）を、[[推測統計学]]においては'''不偏分散'''（ふへんぶんさん、{{lang-en-short|unbiased variance}}）・'''不偏標本分散'''（ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}}）を用いる。{{math|0}} に近いほど散らばりは小さい。
-[[確率論]]および[[統計学]]において、'''分散'''（ぶんさん、{{lang-en-short|variance}}）は、[[確率変数]]の2次の[[モーメント (確率論)|中心化モーメント]]のこと。これは確率変数の[[確率分布|分布]]が[[期待値]]からどれだけ散らばっているかを示す非負の値である{{sfn|西岡|2013|loc={{google books quote|id=AUY2AgAAQBAJ|page=16|1.8  分散}}}}。
-[[記述統計学]]においては[[標本 (統計学)|標本]]が[[平均|標本平均]]からどれだけ散らばっているかを示す[[指標]]として'''標本分散'''（ひょうほんぶんさん、{{lang-en-short|sample variance}}）を、[[推測統計学]]においては'''不偏分散'''（ふへんぶんさん、{{lang-en-short|unbiased (sample) variance}}）を用いる。{{math|0}} に近いほど散らばりは小さい。
-[[日本工業規格]]では、「[[確率変数]] {{mvar|X}} からその[[母平均]]を引いた変数の二乗の[[期待値]]。{{math|1=''σ''<sup>2</sup> = ''V''(''X'') = ''E''[(''X'' &minus; ''E''(''X''))<sup>2</sup>]}} である。」と[[定義]]している{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。
+== 言葉の由来 ==
 英語の {{lang|en|variance}}（バリアンス）という語は[[ロナルド・フィッシャー]]が1918年に導入した<ref>{{cite web
 |url= http://jeff560.tripod.com/v.html
@@ 13行目: / 11行目: @@
 == 確率変数の分散 ==
-[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の'''分散'''は[[期待値]]を {{math|''E''(&middot;)}} で表すと
+[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の分散は[[期待値]]を {{math|''E''(&middot;)}} で表すと
 :<math>V(X)=E\big((X-E(X))^{2}\big)</math>
 で[[定義]]される。また式変形をして
@@ 23行目: / 21行目: @@
 [[チェビシェフの不等式]]から、任意の[[正の数]] {{mvar|&epsilon;}} に対して、
 :<math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math>
-が[[成立|成り立つ]]。これは'''分散'''が小さくなる程に[[期待値]]の近くに[[変数 (数学)|変数]]が[[分布]]することを示す大まかな[[評価]]である。
+が[[成立|成り立つ]]。これは分散が小さくなる程に[[期待値]]の近くに[[変数 (数学)|変数]]が[[分布]]することを示す大まかな[[評価]]である。
 ===性質===
@@ 49行目: / 47行目: @@
 == 母分散 ==
-{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[母集団]]があって、{{mvar|&mu;}} をその[[データ]]の[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − ''&mu;''){{sup|2}}}} の[[平均#相加平均|相加平均]]
+{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[母集団]]があって、{{mvar|&mu;}} をそのデータの[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − ''&mu;''){{sup|2}}}} の[[平均#相加平均|相加平均]]
 :<math>{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2</math>
-で[[表現|表され]]る {{math|''&sigma;''{{sup|2}}}} を'''母分散''' {{en|(population variance)}} と言う<ref name="K">{{harvnb|栗原|2011|p={{google books quote|id=r5JIE8QbPbAC|page=47|47}}}}.</ref>。
+で[[表現|表され]]る {{math|''&sigma;''{{sup|2}}}} を'''母分散'''（ぼぶんさん、{{lang-en-short|population variance}}）と言う<ref name="K">{{harvnb|栗原|2011|p={{google books quote|id=r5JIE8QbPbAC|page=47|47}}}}.</ref>。[[標本 (統計学)|標本]]ではなく[[母集団]]に対して適用したときに母分散という。標本と母集団の違いはそれぞれの項目を参照。
 == 標本分散 ==
-{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[標本]]があって、{{math|{{overline|''x''}}}} をその[[データ]]の[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − {{overline|''x''}}){{sup|2}}}} の[[平均#相加平均|相加平均]]
+{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[標本 (統計学)|標本]]があって、{{math|{{overline|''x''}}}} をそのデータの[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − {{overline|''x''}}){{sup|2}}}} の[[平均#相加平均|相加平均]]
 :<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2</math>
-で定義される {{math|''s''{{sup|2}}}} を'''標本分散''' {{en|(sample variance)}} と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散|不偏分散]]を標本分散と呼ぶ文献もある。
+で定義される {{math|''s''{{sup|2}}}} を'''標本分散'''（ひょうほんぶんさん、{{lang-en-short|sample variance}}）と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散・不偏標本分散|不偏標本分散]]を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は'''偏りのある標本分散'''（{{lang-en-short|biased sample variance}}）と言う。日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。
-日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。
 [[定義]]より、
@@ 63行目: / 60行目: @@
 となるから、標本分散は、2乗の[[平均#相加平均|相加平均]]と[[平均#相加平均|相加平均]]の2乗との差に[[等価|等しい]]。従って、この[[式]]を用いて分散の[[計算]]を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には大きな[[丸め誤差]]が生じる可能性がある（[[桁落ち]]）。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である（あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫が為されることもある）。
-== 不偏分散 ==
+=== 不偏分散・不偏標本分散 ===
-[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して
+偏りのある[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して
 :<math> E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 </math>
 が成り立つ。そこで[[推定量]]として
 :<math>\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}</math>
 を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。
-これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散''' {{en|(unbiased (sample) variance)}} と呼ぶ<ref name="K" />。定義から明らかに、[[標本]]数が大きくなるにつれて標本分散は不偏分散に近づく。
+これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散'''（ふへんぶんさん、{{lang-en-short|unbiased variance}}）や'''不偏標本分散'''（ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}}）と呼ぶ<ref name="K" />。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。
 == 脚注 ==