コンテンツにスキップ

「分散 (確率論)」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
新規作成 (会話 | 投稿記録)
m 標本分散・不偏標本分散: 視認性向上のため括弧の大きさを変更
 
(25人の利用者による、間の43版が非表示)
1行目: 1行目:
{{Expand English|Variance|date=2024年5月}}
[[数学]]の[[統計学]]における'''分散'''(ぶんさん、{{lang-en-short|variance}})とは、[[データ]]([[母集団]]、[[標本 (統計学)|標本]])、[[確率変数]]([[確率分布]])の[[標準偏差]]の[[自乗]]のことである。分散も標準偏差と同様に[[統計的ばらつき|散らばり具合]]を表し{{sfn|西岡|2013|loc={{google books quote|id=AUY2AgAAQBAJ|page=16|1.8 分散}}}}、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。


分散は具体的には、[[算術平均|平均値]]からの[[偏差]]の[[自乗|2乗]]の平均に等しい。データ {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''}} の分散 {{math|''s''{{sup|2}}}} は
[[確率論]]および[[統計学]]において、'''分散'''(ぶんさん、{{lang-en-short|variance}})は、[[確率変数]]の2次の[[モーメント (確率論)|中心化モーメント]]のこと。これは確率変数の[[確率分布|分布]]が[[期待値]]からどれだけ散らばっているかを示す非負の値である{{sfn|西岡|2013|loc={{google books quote|id=AUY2AgAAQBAJ|page=16|1.8 分散}}}}。
:<math>s^2 = \frac{1}{n} \textstyle\sum\limits_{i=1}^n (x_i - \overline{x})^2</math>
:ここで {{math|{{overline|''x''}}}} は平均値を表す。
分散が {{math|0}} であることは、データの値が全て等しいことと[[同値関係|同値]]である。データの分散は二乗平均から平均の[[自乗|2乗]]を引いた値に等しくなる。


確率変数 {{mvar|X}} の分散 {{math|''V''[''X'']}}{{efn2|分散を {{math|Var[''X'']}} と書く場合もある。}}は、{{mvar|X}} の[[期待値]]を {{math|''E''[''X'']}} で表すと
[[記述統計学]]においては[[標本 (統計学)|標本]]が[[平均|標本平均]]からどれだけ散らばっているかを示す[[指標]]として'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})を、[[推測統計学]]においては'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased (sample) variance}})を用いる。{{math|0}} に近いほど散らばりは小さい。
:{{math2|1=''V''[''X''] = ''E''[(''X'' &minus; ''E''[''X'']){{sup|2}}]}}
となる{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。
確率変数の分散は[[確率変数]]の2次の[[モーメント (確率論)|中心化モーメント]]である。


[[統計学]]では、[[統計学#記述統計学と推計統計学|記述統計学]]においては標本の散らばり具合を表す[[指標]]として'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})を、[[推計統計学]]においては'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})・'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})を用いる。
[[日本工業規格]]では、「[[確率変数]] {{mvar|X}} からその[[母平均]]を引いた変数の二乗の[[期待値]]。{{math|1=''σ''<sup>2</sup> = ''V''(''X'') = ''E''[''X'' &minus; ''E''(''X'')]<sup>2</sup>}} である。」と[[定義]]している{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。


== 言葉の由来 ==
英語の {{lang|en|variance}}(バリアンス)という語は[[ロナルド・フィッシャー]]が1918年に導入した<ref>{{cite web
英語の {{lang|en|variance}}(バリアンス)という語は[[ロナルド・フィッシャー]]が1918年に導入した<ref>{{Cite web
|url= http://jeff560.tripod.com/v.html
|url = https://jeff560.tripod.com/v.html
|title= Earliest Known Uses of Some of the Words of Mathematics (V)
|title = Earliest Known Uses of Some of the Words of Mathematics (V)
|accessdate= 2016-01-24
|accessdate = 2016-01-24
}}</ref>。
}}</ref>。


== 確率変数の分散 ==
== 確率変数の分散 ==
[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の'''分散'''は[[期待値]]を {{math|''E''(&middot;)}} で表すと
[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の分散は[[期待値]]を {{math|''E''[X]}} で表すと
:<math>V(X)=E\big((X-E(X))^{2}\big)</math>
:<math>V[X]=E\big[(X-E[X])^2\big]</math>
で[[定義]]される。また式変形をして
で[[定義]]される。これ展開して整理すると
:<math>V(X)=E(X^{2})-(E(X))^{2}</math>
:<math>\begin{alignat}{5}
V[X]& =E\big[(X-E[X])^2\big] \\
とも書ける。また確率変数 {{mvar|X}} の[[特性関数]]を {{math|1=''&phi;''<sub>''X''</sub>(''t'') = ''E''(e<sup>''itX''</sup>)}} とおくと({{mvar|i}} は[[虚数単位]])、これは 2 階[[連続的微分可能]]で
& =E\big[X^2-2XE[X]+(E[X])^2\big] \\
:<math>V(X) = -\varphi_X''(0) + (\varphi_X'(0))^2</math>
& =E[X^2]-2E\big[XE[X]\big]+E\big[(E[X])^2\big] \\
& =E[X^2]-2E[X]E[X]+(E[X])^2 (\because E[X]=Const) \\
& =E[X^2]-(E[X])^2 \\
\end{alignat}
</math>
とも書ける。また確率変数 {{mvar|X}} の[[特性関数]]を {{math2|1=''φ{{sub|X}}''(''t'') = ''E''[''e{{sup|itX}}'']}} とおくと({{mvar|i}} は[[虚数単位]])、これは 2階[[滑らかな関数|連続的微分可能]]で
:<math>V[X] = -\varphi_X''(0) + (\varphi_X'(0))^2</math>
と表示することもできる。
と表示することもできる。


[[チェビシェフの不等式]]から、任意の[[正の数]] {{mvar|&epsilon;}} に対して
[[チェビシェフの不等式]]から、任意の[[正の数]] {{mvar|ε}} に対して
:<math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math>
:<math>P(|X-E[X]|>\varepsilon) \leq \frac{V[X]}{\varepsilon^2}</math>
[[成立|成り立つ]]。これは'''分散'''が小さくなる程に[[期待値]]の近くに[[変数 (数学)|変数]]が[[分布]]することを示す大まかな[[評価]]である。
が成り立つ。これは分散が小さくなるほど確率変数が期待値い値をとりやすることを示す大まかな[[不等式#種類と意味|評価]]である。


===性質===
=== 性質 ===
{{math|''X'', ''X''<sub>1</sub>, &hellip;, ''X<sub>n</sub>''}} を[[確率変数]]、{{math|''a'', ''b'', ''a''<sub>1</sub>, &hellip;, ''a<sub>n</sub>''}} を[[定数]]とし、[[共分散]]を {{math|Cov( &middot; , &middot; )}} で表すと
{{math2|''X'', ''X''{{sub|1}}, , ''X{{sub|n}}''}} を[[確率変数]]、{{math2|''a'', ''b'', ''a''{{sub|1}}, , ''a{{sub|n}}''}} を[[定数]]とし、[[共分散]]を {{math|Cov[ &middot; , &middot; ]}} で表すと
*<math>V(X) \ge 0 </math>(非負性)
*<math>V[X] \ge 0</math>(非負性)
*<math>V(X + b) = V(X) </math>({{仮リンク|位置母数|en|location parameter}}に対する不変性)
*<math>V[X+b] = V[X]</math>({{仮リンク|位置母数|en|location parameter}}に対する不変性)
*<math>V(aX) = a^2 V(X) </math>([[斉次函数|斉次性]])
*<math>V[aX] = a^2 V[X]</math>([[斉次函数|斉次性]])
*<math>\textstyle V(\sum_i a_i X_i) = \sum_{i, j} a_i a_j \operatorname{Cov}(X_i, X_j)</math>
*<math>V \bigl[ \textstyle\sum\limits_i a_i X_i \bigr] = \sum\limits_{i,j} a_i a_j \operatorname{Cov} [X_i, X_j]</math>
を満たす。したがって、特に {{math|''X''<sub>1</sub>, &hellip;, ''X<sub>n</sub>''}} が[[独立 (確率論)|独立]]ならば、
を満たす。したがって、特に {{math2|''X''{{sub|1}}, , ''X{{sub|n}}''}} が[[独立 (確率論)|独立]]ならば、
:<math>\operatorname{Cov}[X_i, X_j] = \begin{cases}
:<math>
V[X_i] &(i=j) \\
\operatorname{Cov}(X_i, X_j) = \begin{cases}
V(X_i) & i = j \\
0 &(i \neq j)
\end{cases}</math>
0 & \text{otherwise}
\end{cases}
</math>
より
より
:<math>V(X_1 + \dotsb + X_n) = V(X_1) + \dotsb + V(X_n)</math>
:<math>V[X_1 + \dotsb + X_n] = V[X_1] + \dotsb + V[X_n]</math>
が成り立つ。
が成り立つ。


=== 例 ===
=== 例 ===
* {{mvar|X}} [[一様分布]] {{math|''U''(''a'', ''b'')}} に従う[[確率変数]]すると {{math|1=''V''(''X'') = {{sfrac|(''b'' &minus; ''a'')<sup>2</sup>|12}}}}
* [[確率変数]] {{mvar|X}} [[一様分布]] {{math|''U''(''a'', ''b'')}} に従うとき、{{math2|1=''V''[''X''] = {{sfrac|(''b'' &minus; ''a''){{sup|2}}|12}}}}
* {{mvar|X}} [[正規分布]] {{math|''N''(''&mu;'', ''&sigma;''<sup>2</sup>)}} に従う確率変数すると {{math|1=''V''(''X'') = ''&sigma;''<sup>2</sup>}}
* 確率変数 {{mvar|X}} [[正規分布]] {{math|''N''(''μ'', ''σ''{{sup|2}})}} に従うとき、{{math2|1=''V''[''X''] = ''σ''{{sup|2}}}}
* {{mvar|X}} [[二項分布]] {{math|''B''(''n'', ''p'')}} に従う確率変数すると {{math|1=''V''(''X'') = ''np''(1 &minus; ''p'')}}
* 確率変数 {{mvar|X}} [[二項分布]] {{math|''B''(''n'', ''p'')}} に従うとき、{{math2|1=''V''[''X''] = ''np''(1 &minus; ''p'')}}
* {{mvar|X}} [[ポアソン分布]] {{math|Po(''&lambda;'')}} に従う確率変数すると {{math|1=''V''(''X'') = ''&lambda;''}}
* 確率変数 {{mvar|X}} [[ポアソン分布]] {{math|Po(''λ'')}} に従うとき、{{math|1=''V''[''X''] = ''λ''}}


== 分散 ==
== データの分散 ==
[[推計統計学]]では、[[母集団]]の分散と[[標本 (統計学)|標本]]の分散を区別する必要がある。
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[母集団]]があって、{{mvar|&mu;}} をその[[データ]]の[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − ''&mu;''){{sup|2}}}} の[[平均#相加平均|相加平均]]
:<math>{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2</math>
で[[表現|表され]]る {{math|''&sigma;''{{sup|2}}}} を'''母分散''' {{en|(population variance)}} と言う<ref name="K">{{harvnb|栗原|2011|p={{google books quote|id=r5JIE8QbPbAC|page=47|47}}}}.</ref>。


== 標本分散 ==
=== 分散 ===
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[標本]]があって、{{math|{{overline|''x''}}}} をその[[データ]]の[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − {{overline|''x''}}){{sup|2}}}} の[[平均#相加平均|相加平均]]
大きさが {{mvar|n}} である[[母集団]] {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, , ''x{{sub|n}}''}} に対して、[[算術平均|平均]] {{mvar|μ}} で表すとき、[[偏差]]の[[自乗]]の平均値
:<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2</math>
:<math>\sigma^2 =\frac{1}{n} \textstyle\sum\limits_{i=1}^n (x_i - \mu)^2</math>
を'''母分散'''(ぼぶんさん、{{lang-en-short|population variance}})と言う<ref name="K">{{harvnb|栗原|2011|p={{google books quote|id=r5JIE8QbPbAC|page=47|47}}}}.</ref>。
で定義される {{math|''s''{{sup|2}}}} を'''標本分散''' {{en|(sample variance)}} と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散|不偏分散]]を標本分散と呼ぶ文献もある。

日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。
=== 標本分散・不偏標本分散 ===
母集団の平均が<math>\mu</math>、分散が<math>\sigma^2</math>のとき、大きさが {{mvar|n}} である[[標本 (統計学)|標本]] {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''}} に対して、標本の[[算術平均|平均値]]を {{math|{{overline|''x''}}}} で表すとき、[[偏差]]の[[自乗]]の平均値
:<math>s^2 =\frac{1}{n} \textstyle\sum\limits_{i=1}^n (x_i - \bar{x})^2</math>
で定義される {{math|''s''{{sup|2}}}} を'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。


[[定義]]より、
[[定義]]より、
:<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}</math>
:<math>s^2 =\frac{1}{n} \textstyle\sum\limits_{i=1}^n {x_i}^2 -(\bar{x})^2 =\overline{x^2}-(\bar{x})^2</math>
となるから、標本分散は2乗の[[平均#相加平均|相加平均]]と[[平均#相加平均|相加平均]]の2乗との差に[[等価|等しい]]従って、この[[式]]を用いて分散の[[計算]]を容易にすることがきる。ただし、して求める分散に対して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には大きな[[丸め誤差]]が生じる可能性がある([[桁落ち]])。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫がされることもある)。
となるから、標本分散は2乗の[[算術平均|平均]]と平均の2乗との差に等しい。ただし、この計算で概して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には[[誤差#桁落ち|桁落ち]]が起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫がされることもある)。

一般に、標本分散の期待値は[[#母分散|母分散]]と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの[[無作為標本]]に対して、標本分散の期待値 {{math|''E''[''s''{{sup|2}}]}} について、
:<math>E[s^2] = E\left[\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2\right]= E\left[\frac{1}{n}\sum_{i=1}^n(x_i-\mu-(\bar{x}-\mu))^2\right] </math>
:<math>= \frac{1}{n}E\left[\sum_{i=1}^n\left(x_i-\mu-\frac{1}{n}\sum_{j=1}^n (x_j-\mu)\right)^2\right]</math>
:<math>= \frac{1}{n}E\left[\sum_{i=1}^n\left(\frac{n-1}{n}(x_i-\mu)-\frac{1}{n}\sum_{j\ne i} (x_j-\mu)\right)^2\right]</math>
:<math>= \frac{1}{n}\sum_{i=1}^n E\left[\frac{(n-1)^2}{n^2}(x_i-\mu)^2+\frac{1}{n^2}\sum_{j\ne i} (x_j-\mu)^2\right]</math>
::<math>+\frac{1}{n}\sum_{i=1}^n E\left[-\frac{2(n-1)}{n^2}(x_i-\mu)\sum_{j\ne i} (x_j-\mu)+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}(x_j-\mu)(x_k-\mu)\right]</math>
:<math>= \frac{1}{n}\sum_{i=1}^n \left[\frac{(n-1)^2}{n^2}E[(x_i-\mu)^2]+\frac{1}{n^2}\sum_{j\ne i} E[(x_j-\mu)^2]\right]</math>
::<math>+\frac{1}{n}\sum_{i=1}^n \left[-\frac{2(n-1)}{n^2}E\left[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)\right]
+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}E[(x_j-\mu)(x_k-\mu)]\right]</math>
ここで、
:<math>E[(x_i-\mu)^2]=E[(x_j-\mu)^2]=\sigma^2</math>
:<math>x_i</math>、<math>x_j</math>、<math>x_k</math>は独立のため、
:<math>E\left[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)\right]=E[x_i-\mu]E\left[\sum_{j\ne i} (x_j-\mu)\right]=0</math>
:<math>E[(x_j-\mu)(x_k-\mu)]=E[x_j-\mu]E[x_k-\mu]=0</math>
となるため、
:<math>E[s^2] =\frac{1}{n}\sum_{i=1}^n (\frac{(n-1)^2}{n^2}\sigma^2+\frac{n-1}{n^2}\sigma^2)=\frac{n-1}{n}\sigma^2</math>
が成り立つ。

そこで
:<math>\hat{\sigma}^2 =\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 =\frac{n}{n-1}s^2</math>
を用いると、
:<math>E\left[\frac{1}{n-1}\sum_1^n(x_i-\bar{x})^2\right]=\sigma^2</math>
となり、期待値が母分散に等しくなる[[推定量]]が得られる。つまり母分散の[[偏り#推定量の偏り|不偏推定量]]となる。これを'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})や'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})と呼ぶ<ref name="K" />。

上記の標本分散は不偏でないことを強調する場合'''偏りのある標本分散'''({{lang-en-short|biased sample variance}})と言う。
{{See also|偏り}}
なお、[[#標本分散・不偏標本分散|不偏標本分散]]を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。


== 不偏分散 ==
== 注釈 ==
{{Notelist2}}
[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して
:<math> E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 </math>
が成り立つ。そこで[[推定量]]として
:<math>\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}</math>
を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。
これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散''' {{en|(unbiased (sample) variance)}} と呼ぶ<ref name="K" />。定義から明らかに、[[標本]]数が大きくなるにつれて標本分散は不偏分散に近づく。


== 脚注 ==
== 出典 ==
{{reflist}}
{{Reflist}}


== 参考文献 ==
== 参考文献 ==
* {{Cite book|和書 |author=栗原伸一 |year=2011 |title=入門統計学検定から多変量解析・実験計画法まで |url={{google books|r5JIE8QbPbAC|plainurl=yes}} |publisher=[[オーム社]] |isbn=978-4-274-06855-3 |ref=harv}}
* {{cite book
* {{Cite book|和書 |author=西岡康夫 |year=2013 |title=数学チュートリアル やさしく語る 確率統計 |publisher=[[オーム社]] |url={{google books |AUY2AgAAQBAJ |plainurl=yes |isbn=978-4-274-21407-3 |ref=harv}}}}
|和書
* {{Cite book|和書 |author=日本数学会|authorlink=日本数学会 |year=2007 |title=数学辞典 |publisher=[[岩波書店]] |isbn=9784000803090}}
|last1 = 栗原
* {{Citation |year=1999 |title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 |publisher=[[日本規格協会]] |publisherlink=kikakurui.com |url=/proxy/http://kikakurui.com/z8/Z8101-1-1999-01.html |ref={{sfnref|JIS Z 8101-1 : 1999}}}}
|first1 = 伸一
* {{Cite book|和書 |author=伏見康治|authorlink=伏見康治 |year=1942 |title=確率論及統計論 |publisher=[[河出書房]] |isbn=9784874720127 |url=/proxy/http://ebsa.ism.ac.jp/ebooks/ebook/204 |ref={{sfnref|伏見}}}}
|year = 2011
|title = 入門統計学検定から多変量解析・実験計画法まで
|url = {{google books|r5JIE8QbPbAC|plainurl=yes}}
|publisher = [[オーム社]]
|isbn = 978-4-274-06855-3
|ref = harv
}}
* {{Cite book|和書|last=西岡|first=康夫|year=2013|title=数学チュートリアル やさしく語る 確率統計|publisher=[[オーム社]]|url={{google books|AUY2AgAAQBAJ|plainurl=yes|isbn=978-4-274-21407-3|ref=harv}}}}
* {{Cite book|和書|author=[[日本数学会]]|year=2007|title=数学辞典|publisher=[[岩波書店]]|isbn=9784000803090}}
* {{citation |year=1999 | title=JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 | publisher=[[日本規格協会]] | publisherlink=kikakurui.com | url=/proxy/http://kikakurui.com/z8/Z8101-1-1999-01.html | ref={{sfnref|JIS Z 8101-1 : 1999}}}}
* {{Cite book|和書|author=[[伏見康治]]|year=1942|title=確率論及統計論|publisher=[[河出書房]]|isbn=9784874720127|url=/proxy/http://ebsa.ism.ac.jp/ebooks/ebook/204| ref={{sfnref|伏見}}}}


== 関連項目 ==
== 関連項目 ==
*[[標準偏差]]
* [[標準偏差]]
* [[統計量]]
*{{仮リンク|確率母関数|en|Probability-generating function}}
*[[分散分析]]
* [[確率密度関数]]
* {{仮リンク|確率母関数|en|Probability-generating function}}
*[[推計統計学]]
*[[正規]]
* [[分散分析]]
*[[中心極限定理]]
* [[推計統計学]]
*[[ブラウン運動]]
* [[正規分布]]
* [[中心極限定理]]
* [[ブラウン運動]]


{{統計学}}
{{統計学}}
{{Normdaten}}


{{DEFAULTSORT:ふんさん}}
{{DEFAULTSORT:ふんさん}}
[[Category:統計的偏差と分散|*ふんさん]]
[[Category:確率論]]
[[Category:確率論]]
[[Category:統計量]]
[[Category:統計量]]

2024年9月27日 (金) 17:13時点における最新版

数学統計学における分散(ぶんさん、: variance)とは、データ母集団標本)、確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表し[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差2乗の平均に等しい。データ x1, x2, …, xn の分散 s2

ここで x は平均値を表す。

分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 X の分散 V[X][注 1]は、X期待値E[X] で表すと

V[X] = E[(XE[X])2]

となる[2]。 確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)を用いる。

言葉の由来

[編集]

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散

[編集]

2乗可積分確率変数 X の分散は期待値E[X] で表すと

定義される。これを展開して整理すると

とも書ける。また確率変数 X特性関数φX(t) = E[eitX] とおくと(i虚数単位)、これは 2階連続的微分可能

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

性質

[編集]

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov[ · , · ] で表すと

  • (非負性)
  • 位置母数英語版に対する不変性)
  • 斉次性

を満たす。したがって、特に X1, …, Xn独立ならば、

より

が成り立つ。

[編集]
  • 確率変数 X一様分布 U(a, b) に従うとき、V[X] = (ba)2/12
  • 確率変数 X正規分布 N(μ, σ2) に従うとき、V[X] = σ2
  • 確率変数 X二項分布 B(n, p) に従うとき、V[X] = np(1 − p)
  • 確率変数 Xポアソン分布 Po(λ) に従うとき、V[X] = λ

データの分散

[編集]

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

母分散

[編集]

大きさが n である母集団 x1, x2, …, xn に対して、平均値μ で表すとき、偏差自乗の平均値

母分散(ぼぶんさん、: population variance)と言う[4]

標本分散・不偏標本分散

[編集]

母集団の平均が、分散がのとき、大きさが n である標本 x1, x2, …, xn に対して、標本の平均値x で表すとき、偏差自乗の平均値

で定義される s2標本分散(ひょうほんぶんさん、: sample variance)と言う。s標準偏差と呼ばれる[4]

定義より、

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summation英語版のような手法により、誤差を小さくする工夫がなされることもある)。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、

ここで、

は独立のため、

となるため、

が成り立つ。

そこで

を用いると、

となり、期待値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)や不偏分散(ふへんぶんさん、: unbiased variance)と呼ぶ[4]

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散: biased sample variance)と言う。

なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

注釈

[編集]
  1. ^ 分散を Var[X] と書く場合もある。

出典

[編集]

参考文献

[編集]

関連項目

[編集]