コンテンツにスキップ

「分散 (確率論)」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
標本分散・不偏標本分散: 期待値が一致しないことの根拠
標本分散・不偏標本分散: 表示されなかったカッコを表示
79行目: 79行目:
となるから、標本分散は2乗の[[算術平均|平均値]]と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には[[誤差#桁落ち|桁落ち]]が起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫がなされることもある)。
となるから、標本分散は2乗の[[算術平均|平均値]]と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、[[浮動小数点数]]による[[近似]]計算を行う場合には[[誤差#桁落ち|桁落ち]]が起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の[[総和]]計算と同じく[[カハンの加算アルゴリズム]]や{{仮リンク|pairwise summation|en|pairwise summation}}のような手法により、誤差を小さくする工夫がなされることもある)。


一般に、標本分散の期待値は[[#母分散|母分散]]と一致せず、母分散より小さくなる。これは、母分散は母平均との偏差で算出されるのに対し、標本分散では標本平均との偏差で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの[[無作為標本]]に対して、標本分散の期待値 {{math|''E''[''s''{{sup|2}}]}} について、
一般に、標本分散の期待値は[[#母分散|母分散]]と一致せず、母分散より小さくなる。これは、母分散は母平均との偏差で算出されるのに対し、標本分散では標本平均との偏差で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの[[無作為標本]]に対して、標本分散の期待値 {{math|''E''[''s''{{sup|2}}]}} について、
:<math>E[s^2] = E[\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2]= E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu-(\bar{x}-\mu))^2] </math>
:<math>E[s^2] = E[\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2]= E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu-(\bar{x}-\mu))^2] </math>
:<math>= \frac{1}{n}E[\sum_{i=1}^n(x_i-\mu-\frac{1}{n}\sum_{j=1}^n (x_j-\mu))^2]</math>
:<math>= \frac{1}{n}E[\sum_{i=1}^n(x_i-\mu-\frac{1}{n}\sum_{j=1}^n (x_j-\mu))^2]</math>
85行目: 85行目:
:<math>= \frac{1}{n}\sum_{i=1}^n E[\frac{(n-1)^2}{n^2}(x_i-\mu)^2+\frac{1}{n^2}\sum_{j\ne i} (x_j-\mu)^2]</math>
:<math>= \frac{1}{n}\sum_{i=1}^n E[\frac{(n-1)^2}{n^2}(x_i-\mu)^2+\frac{1}{n^2}\sum_{j\ne i} (x_j-\mu)^2]</math>
:<math>+\frac{2}{n}\sum_{i=1}^n E[-\frac{n-1}{n^2}(x_i-\mu)\sum_{j\ne i} (x_j-\mu)+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}(x_j-\mu)(x_k-\mu)]</math>
:<math>+\frac{2}{n}\sum_{i=1}^n E[-\frac{n-1}{n^2}(x_i-\mu)\sum_{j\ne i} (x_j-\mu)+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}(x_j-\mu)(x_k-\mu)]</math>
:<math>= \frac{1}{n}\sum_{i=1}^n {\frac{(n-1)^2}{n^2}E[(x_i-\mu)^2]+\frac{1}{n^2}\sum_{j\ne i} E[(x_j-\mu)^2]}</math>
:<math>= \frac{1}{n}\sum_{i=1}^n [\frac{(n-1)^2}{n^2}E[(x_i-\mu)^2]+\frac{1}{n^2}\sum_{j\ne i} E[(x_j-\mu)^2]]</math>
:<math>-\frac{2}{n}\sum_{i=1}^n {\frac{n-1}{n^2}E[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)]
:<math>+\frac{2}{n}\sum_{i=1}^n [-\frac{n-1}{n^2}E[(x_i-\mu)\sum_{j\ne i} (x_j-\mu)]
+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}E[(x_j-\mu)(x_k-\mu)]}</math>
+\frac{1}{n^2}\sum_{j\ne i}\sum_{k\ne i,j}E[(x_j-\mu)(x_k-\mu)]]</math>
ここで、
ここで、
:<math>E[(x_i-\mu)^2]=E[(x_j-\mu)^2]=\sigma^2</math>
:<math>E[(x_i-\mu)^2]=E[(x_j-\mu)^2]=\sigma^2</math>

2024年9月23日 (月) 05:44時点における版

数学統計学における分散(ぶんさん、: variance)とは、データ母集団標本)、確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表し[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差2乗の平均に等しい。データ x1, x2, …, xn の分散 s2

ここで x は平均値を表す。

分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 X の分散 V[X][注 1]は、X期待値E[X] で表すと

V[X] = E[(XE[X])2]

となる[2]。 確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)を用いる。

言葉の由来

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散

2乗可積分確率変数 X の分散は期待値E[X] で表すと

定義される。これを展開して整理すると

とも書ける。また確率変数 X特性関数φX(t) = E[eitX] とおくと(i虚数単位)、これは 2階連続的微分可能

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

性質

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov[ · , · ] で表すと

  • (非負性)
  • 位置母数英語版に対する不変性)
  • 斉次性

を満たす。したがって、特に X1, …, Xn独立ならば、

より

が成り立つ。

  • 確率変数 X一様分布 U(a, b) に従うとき、V[X] = (ba)2/12
  • 確率変数 X正規分布 N(μ, σ2) に従うとき、V[X] = σ2
  • 確率変数 X二項分布 B(n, p) に従うとき、V[X] = np(1 − p)
  • 確率変数 Xポアソン分布 Po(λ) に従うとき、V[X] = λ

データの分散

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

母分散

大きさが n である母集団 x1, x2, …, xn に対して、平均値μ で表すとき、偏差自乗の平均値

母分散(ぼぶんさん、: population variance)と言う[4]

標本分散・不偏標本分散

母集団の平均が、分散がのとき、大きさが n である標本 x1, x2, …, xn に対して、標本の平均値x で表すとき、偏差自乗の平均値

で定義される s2標本分散(ひょうほんぶんさん、: sample variance)と言う。s標準偏差と呼ばれる[4]

定義より、

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summation英語版のような手法により、誤差を小さくする工夫がなされることもある)。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、

ここで、

は独立のため、

となるのため、

が成り立つ。

そこで

を用いると、

となり、期待値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)や不偏分散(ふへんぶんさん、: unbiased variance)と呼ぶ[4]

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散: biased sample variance)と言う。

なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

注釈

  1. ^ 分散を Var[X] と書く場合もある。

出典

参考文献

関連項目