トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

平均値と標準偏差

データサイエンス では、データ集団をひとつの値で表現したい場合があります。 例えば、生徒の学力を学校単位で比べたい場合です。

平均値(データ集団の代表値)

平均値( Average :アベレージ)とは、全部のデータを足し合わせて、データの数で割った値です。 平均値は計算が単純ですし、集団を表す値として便利です。

しかし、現実のデータ解析では、平均値の扱い方が原因で、解析を失敗する場合があります。 代表的な理由は、2つあります。

ヒストグラム

中央値

1・2の問題を簡単に解決する方法として、 中央値(メディアン・メジアン・Median)を平均値の代わりに使う方法があります。

データが奇数個の場合、データを大きな順に並べた時の、真ん中の値が中央値です。 データが偶数個の場合、真ん中付近の2つの値の平均値が、中央値です。

中央値は、真ん中付近の値だけを使って求めるので、異常値が混ざっていても、 その値は中央値の算出に含まれません。 そのため、異常値の影響を受けません。 また、真ん中付近の値なので、分布が対称的ならば、中央値と平均値は、ほぼ同じになります。

ただし、目的によっては、データが非対称でも、平均値が必要な場合もあり得ます。 中央値を使うか、平均値を使うかは目的次第です。

トリム平均値

1 のみの解決策としては、 データの最大値と最小値付近の値を平均値の計算から除外してしまう「トリム平均値」 という値もあります。 「トリム(trim)」とは、「切り取る」という意味です。

トリム平均値を実際に計算する時には、 「分布の裾の値なのか?異常値なのか?」という判断で困ってしまい、 平均値の計算から除外する値の選別が難しい場合があります。

平均値の比較で失敗しないために

2つ以上の集団の比較として、平均値の大小関係を議論するのは、いろいろな所で見かけます。 しかし、単純に平均値だけを比較するのは、失敗しやすいです。

失敗する原因のひとつが、上記のように異常値が混ざっていて、不適切な計算をしている場合です。

もうひとつの失敗する原因は、ばらつきの影響です。 ばらつきが大きいデータの平均値は、そのばらつきの仕方が、ちょっと変わっただけで大きく変動します。 そんな平均値の比較は、当てにならないです。

平均値の比較をする時は、 「ばらつきを踏まえて考えても、その平均値の差は、差があると言えるか?」 、というチェックが必要です。 このチェックは、ヒストグラムで視覚的にできます。 統計学的にきちっと分析する場合は、平均値の差の 検定 (t検定)をします。

異常状態のデータ解析

上記では、異常値が不要な時に、異常値の影響を取り除く方法を紹介しています。 しかし、 異常状態の工程解析 の時は、異常値が「なぜ異常になったのか?」を調べたりしますので、 いつでも異常値を無視して良いわけではないです。

異常値を無視しないケースでは、例えば、異常値と、異常値以外の値の、大きさの違いから、 異常原因を推測します。 また、異常値と異常値以外の値の、Xの違いから、異常原因を推測することもあります。

標準偏差(ばらつきの尺度)

データのばらつきも大事な概念です。 品質関係の分野は、ばらつきの扱いが成否を左右します。 品質関係の分野は、ばらつきの小さな生産方法を、 SPC品質工学生産工学 で目指します。

ばらつきの尺度は、標準偏差( Standard Deviation )や、標準偏差の2乗である分散がよく使われます。

四分位値の差・最大値と最小値の差

上記の平均値で問題が起きる時と同じ理由で、 標準偏差や分散を使うことが不適切なことがあります。

上記では、平均値の代用として中央値を挙げました。 標準偏差の代用としては、 「上下の四分位値の差」が役に立つことがあります。 四分位値とは、大きい順に並べて、大きい方から四分の一の順位にある値と、 小さい方から四分の一の順位にある値のことです。 ちなみに、四分位値は、箱ひげ図(ボックスプロット)の箱の、上底と下底になる値です。

「最大値と最小値の差」も代用案としてあります。 しかし、これは異常値を取り除かないと、 異常値が算出に入って来て、とんでもない値になる事があります。

分散の代用は、標準偏差の代用値を2乗する程度しか、筆者には思い当たりません。 実際の場面で、分散の代用値が必要になることは、おそらくないと思います。

変動係数

平均値が大きい程、標準偏差が大きくなる性質を持つデータが、 世の中にはいろいろあります。 そのようなデータでは、 ばらつきの尺度として標準偏差を採用するのは、 不適切な場合があります。

この対策として、平均値の影響を除いたばらつきの尺度に、変動係数があります。 変動係数は、標準偏差を平均値で割った量です。 尚、変動係数は無次元量です。 無次元量は、対象物の測定単位の影響がなく、違う単位のものの分布の違いを比べたりする時に便利です。

変動係数の考え方は、品質工学の 望目特性 のSN比と同じです。また、変動係数と似た考え方は、 標準化 でも出て来ます。

2次元ばらつき

2次元データ(XとYのデータ)の場合、データが直線的になるかどうかが、ばらつきとして重要視されることが多いです。 直線関係のばらつきの尺度は、 相関係数 があります。

品質工学のSN比

上記の望目特性のSN比もそうですが、その他の 品質工学のSN比 も、ばらつきの尺度として考案されたものです。

環境と品質を、ばらつきから考える

このサイトは、 環境と品質 の両方の分野を扱っています。 品質 では、ばらつきを小さくする取り組みが重要です。
一方、 環境生態系 )では、ばらつきが小さいとは、 種が偏っているということになると思いますが、 これはいいことではありません。 環境の分野では、「多様」が良いこととされます。


順路 次は 検定

Tweet