コンテンツにスキップ

「分散 (確率論)」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
56行目: 56行目:


== 標本分散 ==
== 標本分散 ==
大きさが {{mvar|n}} である[[データ]] {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''}} からなる[[標本 (統計学)|標本]]があり、[[算術平均|平均値]]を {{math|{{overline|''x''}}}} で表すとき、{{math|(''x{{sub|i}}'' − {{overline|''x''}}){{sup|2}}}} の平均値
大きさが {{mvar|n}} である[[データ]] {{math2|''x''{{sub|1}}, ''x''{{sub|2}}, …, ''x{{sub|n}}''}} からなる[[標本 (統計学)|標本]]に対してが、[[算術平均|平均値]]を {{math|{{overline|''x''}}}} で表すとき、[[偏差]]の[[自乗]]の平均値
:<math>s^2 =\frac{1}{n} \textstyle\sum\limits_{i=1}^n (x_i - \bar{x})^2</math>
:<math>s^2 =\frac{1}{n} \textstyle\sum\limits_{i=1}^n (x_i - \bar{x})^2</math>
で定義される {{math|''s''{{sup|2}}}} を'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散・不偏標本分散|不偏標本分散]]を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は'''偏りのある標本分散'''({{lang-en-short|biased sample variance}})と言う。[[日本産業規格]]では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。
で定義される {{math|''s''{{sup|2}}}} を'''標本分散'''(ひょうほんぶんさん、{{lang-en-short|sample variance}})と言う。{{mvar|s}} は[[標準偏差]]と呼ばれる<ref name="K" />。なお、[[#不偏分散・不偏標本分散|不偏標本分散]]を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は'''偏りのある標本分散'''({{lang-en-short|biased sample variance}})と言う。[[日本産業規格]]では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している{{sfn|JIS Z 8101-1 : 1999|loc=2.19 標本分散}}。
67行目: 67行目:
{{See also|偏り}}
{{See also|偏り}}
[[偏り]]のある[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して
[[偏り]]のある[[#標本分散|標本分散]]は、一般にその[[期待値]]が[[#母分散|母分散]]よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの[[無作為標本]]に対して
:<math>E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2</math>
:<math>E(s^2) = \left( 1-\frac{1}{n} \right) \sigma^2</math>
が成り立つ。そこで[[推定量]]として
が成り立つ。そこで[[推定量]]として
:<math>\hat{\sigma}^2 =\frac{1}{n-1} \textstyle\sum\limits_{i=1}^n (x_i - \bar{x})^2 =\dfrac{1}{n-1} \textstyle\sum\limits_{i=1}^n (x_i)^2 - \dfrac{n}{n-1} \bar{x}^2</math>
:<math>\hat{\sigma}^2 =\frac{1}{n-1} \textstyle\sum\limits_{i=1}^n (x_i - \bar{x})^2 =\dfrac{1}{n-1} \textstyle\sum\limits_{i=1}^n {x_i}^2 - \dfrac{n}{n-1} \bar{x}^2</math>
を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。
を用いると、[[期待値]]が母分散に等しくなる推定量が得られる。
これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})や'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})と呼ぶ<ref name="K" />。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。
これを母分散の[[不偏推定量]]であるとの意味で'''不偏分散'''(ふへんぶんさん、{{lang-en-short|unbiased variance}})や'''不偏標本分散'''(ふへんひょうほんぶんさん、{{lang-en-short|unbiased sample variance}})と呼ぶ<ref name="K" />。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。

2021年2月23日 (火) 00:51時点における版

数学統計学における分散(ぶんさん、: variance)とは、データ母集団標本確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表し[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差の自乗の平均に等しい。例えば確率変数 X の分散は、X期待値E[X] で表すと

V[X] = E[(XE[X])2]

となる[2]

確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本が標本平均からどれだけ散らばっているかを示す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)を用いる。0 に近いほど散らばりは小さい。

言葉の由来

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散

2乗可積分確率変数 X の分散は期待値E[·] で表すと

定義される。これを展開して整理すると

とも書ける。また確率変数 X特性関数φX(t) = E[eitX] とおくと(i虚数単位)、これは 2階連続的微分可能

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

が成り立つ。これは分散が小さくなる程期待値の近くに確率変数の値が分布することを示す大まかな評価である。

性質

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov[ · , · ] で表すと

  • (非負性)
  • 位置母数英語版に対する不変性)
  • 斉次性

を満たす。したがって、特に X1, …, Xn独立ならば、

より

が成り立つ。

  • 確率変数 X一様分布 U(a, b) に従うとき、V(X) = (ba)2/12
  • 確率変数 X正規分布 N(μ, σ2) に従うとき、V(X) = σ2
  • 確率変数 X二項分布 B(n, p) に従うとき、V(X) = np(1 − p)
  • 確率変数 Xポアソン分布 Po(λ) に従うとき、V(X) = λ

母分散

大きさが n であるデータ x1, x2, …, xn からなる母集団に対して、平均値μ で表すとき、偏差自乗の平均値

母分散(ぼぶんさん、: population variance)と言う[4]推計統計学では、母集団の分散と標本の分散を区別する必要がある。母集団と標本の違いはそれぞれの項目を参照。

標本分散

大きさが n であるデータ x1, x2, …, xn からなる標本に対してが、平均値x で表すとき、偏差自乗の平均値

で定義される s2標本分散(ひょうほんぶんさん、: sample variance)と言う。s標準偏差と呼ばれる[4]。なお、不偏標本分散を単に標本分散と呼ぶ文献もある。不偏でないことを強調する場合は偏りのある標本分散: biased sample variance)と言う。日本産業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している[5]

定義より、

となるから、標本分散は、2乗の相加平均相加平均の2乗との差に等しい。従って、このを用いて分散の計算を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summation英語版のような手法により、誤差を小さくする工夫が為されることもある)。

不偏分散・不偏標本分散

偏りのある標本分散は、一般にその期待値母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して

が成り立つ。そこで推定量として

を用いると、期待値が母分散に等しくなる推定量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散(ふへんぶんさん、: unbiased variance)や不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)と呼ぶ[4]。定義から明らかに、標本数が大きくなるにつれて偏りのある標本分散は不偏標本分散に近づく。

脚注

参考文献

関連項目