「分散 (確率論)」の版間の差分
定義式の誤りを修正 |
編集の要約なし |
||
1行目: | 1行目: | ||
⚫ | '''分散'''(ぶんさん、{{lang-en-short|variance}})とは、[[確率論]]では、[[確率変数]] {{mvar|X}} からその[[母平均]] {{math|''E''(''X'')}} を引いた2乗の[[期待値]] {{math|1=''σ''<sup>2</sup> = ''V''(''X'') = ''E''[(''X'' − ''E''(''X''))<sup>2</sup>]}} のこと{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。[[確率変数]]の2次の[[モーメント (確率論)|中心化モーメント]]である。確率変数の[[確率分布|分布]]が[[期待値]]からどれだけ散らばっているかを示す非負の値である{{sfn|西岡|2013|loc={{google books quote|id=AUY2AgAAQBAJ|page=16|1.8 分散}}}}。 |
||
⚫ | [[統計学]]では、[[記述統計学]]においては[[標本 (統計学)|標本]]が[[平均|標本平均]]からどれだけ散らばっているかを示す[[指標]]として'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})を、[[推測統計学]]においては'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})・'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})を用いる。{{math|0}} に近いほど散らばりは小さい。 |
||
⚫ | |||
⚫ | |||
[[日本工業規格]]では、「[[確率変数]] {{mvar|X}} からその[[母平均]]を引いた変数の二乗の[[期待値]]。{{math|1=''σ''<sup>2</sup> = ''V''(''X'') = ''E''[(''X'' − ''E''(''X''))<sup>2</sup>]}} である。」と[[定義]]している{{sfn|JIS Z 8101-1 : 1999|loc=1.13 分散}}。 |
|||
== 言葉の由来 == |
|||
英語の {{lang|en|variance}}(バリアンス)という語は[[ロナルド・フィッシャー]]が1918年に導入した<ref>{{cite web |
英語の {{lang|en|variance}}(バリアンス)という語は[[ロナルド・フィッシャー]]が1918年に導入した<ref>{{cite web |
||
|url= http://jeff560.tripod.com/v.html |
|url= http://jeff560.tripod.com/v.html |
||
13行目: | 11行目: | ||
== 確率変数の分散 == |
== 確率変数の分散 == |
||
[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の |
[[自乗可積分函数|2乗可積分]][[確率変数]] {{mvar|X}} の分散は[[期待値]]を {{math|''E''(·)}} で表すと |
||
:<math>V(X)=E\big((X-E(X))^{2}\big)</math> |
:<math>V(X)=E\big((X-E(X))^{2}\big)</math> |
||
で[[定義]]される。また式変形をして |
で[[定義]]される。また式変形をして |
||
23行目: | 21行目: | ||
[[チェビシェフの不等式]]から、任意の[[正の数]] {{mvar|ε}} に対して、 |
[[チェビシェフの不等式]]から、任意の[[正の数]] {{mvar|ε}} に対して、 |
||
:<math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math> |
:<math>P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}</math> |
||
が[[成立|成り立つ]]。これは |
が[[成立|成り立つ]]。これは分散が小さくなる程に[[期待値]]の近くに[[変数 (数学)|変数]]が[[分布]]することを示す大まかな[[評価]]である。 |
||
===性質=== |
===性質=== |
||
49行目: | 47行目: | ||
== 母分散 == |
== 母分散 == |
||
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[母集団]]があって、{{mvar|μ}} をその |
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[母集団]]があって、{{mvar|μ}} をそのデータの[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − ''μ''){{sup|2}}}} の[[平均#相加平均|相加平均]] |
||
:<math>{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2</math> |
:<math>{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2</math> |
||
で[[表現|表され]]る {{math|''σ''{{sup|2}}}} を'''母分散''' |
で[[表現|表され]]る {{math|''σ''{{sup|2}}}} を'''母分散'''(ぼぶんさん、{{lang-en-short|population variance}})と言う<ref name="K">{{harvnb|栗原|2011|p={{google books quote|id=r5JIE8QbPbAC|page=47|47}}}}.</ref>。[[標本 (統計学)|標本]]ではなく[[母集団]]に対して適用したときに母分散という。標本と母集団の違いはそれぞれの項目を参照。 |
||
== 標本分散 == |
== 標本分散 == |
||
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[標本]]があって、{{math|{{overline|''x''}}}} をその |
{{mvar|n}} 個の[[データ]] {{math|''x''{{sub|1}}, ''x''{{sub|2}}, ..., ''x{{sub|n}}''}} からなる[[標本 (統計学)|標本]]があって、{{math|{{overline|''x''}}}} をそのデータの[[平均#相加平均|相加平均]]とした時に、{{math|(''x{{sub|i}}'' − {{overline|''x''}}){{sup|2}}}} の[[平均#相加平均|相加平均]] |
||
:<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2</math> |
:<math>s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2</math> |
||
で定義される {{math|''s''{{sup|2}}}} を'''標本分散''' |
で定義される {{math|''s''{{sup|2}}}} を'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散・不偏標本分散|不偏標本分散]]を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は'''偏りのある標本分散'''({{lang-en-short|biased sample variance}})と言う。日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。 |
||
日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。 |
|||
[[定義]]より、 |
[[定義]]より、 |
||
63行目: | 60行目: | ||
となるから、標本分散は、2乗の[[平均#相加平均|相加平均]]と[[平均#相加平均|相加平均]]の2乗との差に[[等価|等しい]]。従って、この[[式]]を用いて分散の[[計算]]を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には大きな[[丸め誤差]]が生じる可能性がある([[桁落ち]])。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫が為されることもある)。 |
となるから、標本分散は、2乗の[[平均#相加平均|相加平均]]と[[平均#相加平均|相加平均]]の2乗との差に[[等価|等しい]]。従って、この[[式]]を用いて分散の[[計算]]を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には大きな[[丸め誤差]]が生じる可能性がある([[桁落ち]])。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫が為されることもある)。 |
||
== 不偏分散 == |
=== 不偏分散・不偏標本分散 === |
||
[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して |
偏りのある[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して |
||
:<math> E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 </math> |
:<math> E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 </math> |
||
が成り立つ。そこで[[推定量]]として |
が成り立つ。そこで[[推定量]]として |
||
:<math>\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}</math> |
:<math>\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}</math> |
||
を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。 |
を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。 |
||
これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散''' {{en| |
これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})や'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})と呼ぶ<ref name="K" />。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。 |
||
== 脚注 == |
== 脚注 == |
2019年7月28日 (日) 16:56時点における版
分散(ぶんさん、英: variance)とは、確率論では、確率変数 X からその母平均 E(X) を引いた2乗の期待値 σ2 = V(X) = E[(X − E(X))2] のこと[1]。確率変数の2次の中心化モーメントである。確率変数の分布が期待値からどれだけ散らばっているかを示す非負の値である[2]。
統計学では、記述統計学においては標本が標本平均からどれだけ散らばっているかを示す指標として標本分散(ひょうほんぶんさん、英: sample variance)を、推測統計学においては不偏分散(ふへんぶんさん、英: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)を用いる。0 に近いほど散らばりは小さい。
言葉の由来
英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]。
確率変数の分散
2乗可積分確率変数 X の分散は期待値を E(·) で表すと
で定義される。また式変形をして
とも書ける。また確率変数 X の特性関数を φX(t) = E(eitX) とおくと(i は虚数単位)、これは 2 階連続的微分可能で
と表示することもできる。
チェビシェフの不等式から、任意の正の数 ε に対して、
が成り立つ。これは分散が小さくなる程に期待値の近くに変数が分布することを示す大まかな評価である。
性質
X, X1, …, Xn を確率変数、a, b, a1, …, an を定数とし、共分散を Cov( · , · ) で表すと
を満たす。したがって、特に X1, …, Xn が独立ならば、
より
が成り立つ。
例
- X を一様分布 U(a, b) に従う確率変数とすると V(X) = (b − a)2/12
- X を正規分布 N(μ, σ2) に従う確率変数とすると V(X) = σ2
- X を二項分布 B(n, p) に従う確率変数とすると V(X) = np(1 − p)
- X をポアソン分布 Po(λ) に従う確率変数とすると V(X) = λ
母分散
n 個のデータ x1, x2, ..., xn からなる母集団があって、μ をそのデータの相加平均とした時に、(xi − μ)2 の相加平均
で表される σ2 を母分散(ぼぶんさん、英: population variance)と言う[4]。標本ではなく母集団に対して適用したときに母分散という。標本と母集団の違いはそれぞれの項目を参照。
標本分散
n 個のデータ x1, x2, ..., xn からなる標本があって、x をそのデータの相加平均とした時に、(xi − x)2 の相加平均
で定義される s2 を標本分散(ひょうほんぶんさん、英: sample variance)と言う。s は標準偏差と呼ばれる[4]。なお、不偏標本分散を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は偏りのある標本分散(英: biased sample variance)と言う。日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している[5]。
定義より、
となるから、標本分散は、2乗の相加平均と相加平均の2乗との差に等しい。従って、この式を用いて分散の計算を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summationのような手法により、誤差を小さくする工夫が為されることもある)。
不偏分散・不偏標本分散
偏りのある標本分散は、一般にその期待値が母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して
が成り立つ。そこで推定量として
を用いると、期待値が母分散に等しくなる推定量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散(ふへんぶんさん、英: unbiased variance)や不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)と呼ぶ[4]。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。
脚注
- ^ JIS Z 8101-1 : 1999, 1.13 分散.
- ^ 西岡 2013, 1.8 分散.
- ^ “Earliest Known Uses of Some of the Words of Mathematics (V)”. 2016年1月24日閲覧。
- ^ a b c 栗原 2011, p. 47.
- ^ JIS Z 8101-1 : 1999, 2.19 標本分散.
参考文献
- 栗原伸一『入門統計学検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3 。
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年 。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。