小学生でも分かる正規分布
目次
1. はじめに
部品の寸法のバラツキ、或いは学内試験における点数のバラツキに関して、正規分布が使われますが、正規分布とは一体何なのでしょう。
ためしにウィキペディアで調べてみると以下の様に書かれていますが、これを読んで分かる人は、恐らく誰もいないのではないでしょうか。
確率論や統計学で用いられる正規分布(せいきぶんぷ、英語: normal distribution)またはガウス分布(Gaussian distribution)とは、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。
また図書館で調べても、3σだの中心極限定理だの標準偏差だのと難しい式が山盛りで、読む気すら起きません。
そもそも知らない単語は正規分布の一つだけなのに、なぜそれを説明するのに更に3つも4つも聞いた事もない様な単語を使うのでしょうか。
それでは永遠に謎は解けませんし、むしろ調べない方が疑問は一つで済んだとも言えます。
という訳でいつもの様にここでは、正規分布とは一体何なのかを、小学生にも分かる様にご説明したいと思います。
正規分布を、今すぐ知りたい方は必見です。
2. 正規分布の概要
正規分布を一言で言えば、同じ条件下で得られたバラツキのある事象の発生頻度を調べてみると、中央の値の発生頻度が最も多く、それを中心に左右対称で発生頻度が少なくなる(釣鐘状になる)という現象の事です。
この説明だけではまだ良く分からないと思いますので、あるクラスにおけるテストの試験結果を例にして説明したいと思います。
ある生徒40人のクラスで、算数の試験が行われました。
A君は62点、B君は80点、Cさんは75点、D君は40点、、、でした。
これを0~9点、10~19点の様に点数を10点置きに分類して、それぞれの点数の範囲に何人が居るかをグラフ化したのが以下の図です。
ちなみに、点数毎の発生頻度のグラフをヒストグラム(ヒストグラフではありません)と呼びます
さてこのグラフを見ると、完全な左右対称ではありませんが、中央が高く、両端にいく程低くなる傾向は見られます。
このクラスの場合、生徒数は40人でしたが、仮に百人とか千人とか生徒数が多くなると、最終的にこのグラフは以下の様な釣鐘状の形にどんどん近づいていくのです。
これが正規分布です。
中にはこれを釣鐘状と呼ぶのは間違いでベル状と呼ぶべきだという指摘もあるのですが、本書ではこのまま日本古来の(もしかしたら中国伝来かもしれませんが)釣鐘状と呼ぶ事にします。
なおこの正規分布カーブの描き方は、本書の最終章で10分以内に描く方法をご紹介しますので、楽しみしておいて下さい。
それはともかくとして、それではここで問題です。
試験結果を集計すると、何故この様な釣鐘状の形状になるのでしょうか?
恐らく大多数の方は、いよいよここから難しい説明が始まるのだろなと期待されるのでしょうが、残念ながら答えは非常に簡単で期待外れのものです。
そしてここが正規分布の本質なのです。
答えを言いますと、実は誰にも分からないのです。
強いて言えば、自然界の摂理とか法則とでも言うのでしょうか。
とにかく、似た様な事象において、同じ様な集計をすると、どういう訳かどんどんこの形状に近付いていくのです。
ネットの記事を読むと、正規分布とはあたかも計算から導きだされたものと誤解してしまいますが、実は自然界における一つの法則なのです。
そして下にある正規分布に関する難しい式も、何とかこの釣鐘状のカーブを計算で求めようとして、長年数学者達が苦労して導き出したものなのです。
何の事だかさっぱり分からない正規分布の式
これさえ知ってしまえば、貴方は正規分布について殆ど知ってしまったと思って頂いて構いません。
残りの殆どはそれを使うとどんなメリットがあるかの応用なのですが、本書ではもう少し正規分布の事例を挙げてから、応用に移りたいと思います。
これを知れば、ますます正規分布に興味を持たれると思います。
3. 自然現象の正規分布
前段では人の試験結果を元に正規分布を見てみましたが、これではデータの客観性が乏しい(いくらでもデータを勝手に作る事ができる)ので、次は自然界の現象においても正規分布が成り立つかどうかを調べてみたいと思います。
実は殆どの自然現象が正規分布になる事は分かっているのですが、ここではデータに客観性のある気象庁の公表データを使ってみたいと思います。
~
上の表は、沖縄の過去66年間の梅雨入りと梅雨明け日を示す表です。
そのうち、今回は(皆さんが興味を持つかもしれない)沖縄の梅雨明けの日を、その発生頻度で集計してみます。
すなわち6月19日に梅雨明けしたのが何回で、6月20日に梅雨明けしたのが何回かを数えて、それをグラフにしてみます。
するとどうでしょう。
綺麗な左右対称とはいえませんが、おおよそ釣鐘状に近い形になっているのが分かって頂けるでしょうか。
データ量がそこそこ多いのでもう少し綺麗な形になるのを期待していたのですが、梅雨入り/梅雨明け日については、気象庁が遡(さかのぼ)って日にちを修正するくらい明確に特定できない所がありますので、この様な形になるのは止むを得ないかもしれません。
なおグラフの中の緑の線は、計算から求めた正規分布のグラフで、後ほどご説明します。
4. 実験
前述のグラフを見ても、まだそんなにうまく釣鐘状になるのかと疑う人が多いと思います。
という訳で、次に簡単な実験をやってみたいと思います。
もし40人のクラスがあったとしたら、以下の様にやってみて下さい。
①先ず、先生が時計の秒針を見ながら、1、2、3、4と声を出してカウントし、それに沿ってクラス全員も心の中でカウントして、自分がストップウォッチになった練習をします。
②練習が終了したら、実験の開始です。
先生がスタートといったら、生徒全員は自分がストップウォッチなったつもりで、心の中で秒数をカウントします。
③先生がストップと言ったら、生徒達はカウントを止め、心の中の秒数を紙に控えます。
その際、あまり時間が長いとバラツキが大きくなるので、30秒前後が良いかもしれません。
④生徒達の秒数を集計して、ヒストグラムを作成します。
下がその結果です。
人時計のヒストグラム
これはスタートからストップまでの時間を22秒に設定した場合に、19秒とか20秒だと思った生徒が何人いたかを表しています。
ご覧の様に、中央の22秒を中心に、左右対称の綺麗な釣鐘状です、と言うには少々無理がありますが、凡(おおよ)そ左右対象になっているのが分かると思います。
くどい様ですが、これはどこかの誰かがこの様な分布にしようと決めたのではなく、自然にこんな形になるのです。
さてここからが本題です。
この実験は40人が必要ですが、実は一人でも同じ様な実験が簡単にできるのです。
例えば貴方が心の中で20秒カウントします。
その時間をストップウォッチで測定して記録します。
具体的には心の中でカウントを始めた時にストップウォッチのスタートボタンを押して、20秒経過したと思った所でストップウォッチを止めて、その時間を記録するのです。
それを何度か繰り返して、そのデータを集計すれば、上記と似た様なグラフが作成できるのです。
百聞は一見にしかずで、是非試して頂ければと思います。
実際に実験をやってみれば、さらに正規分布の本質に近付けると思います。
すなわち、あなた自身が正規分布の中にいる感覚を味わって頂ければと思います。
そして同じ実験を繰り返せば繰り返す程、棒グラフの山が22秒に近付くのが確認できると思います。
くどい様ですが、騙されたと思って一度実験してみる事を強くお勧めします。
そうすれば間違いなく正規分布の本質に近付けます。
話は戻って、それでは先ほどのグラフをもう一度見てみましょう。
人時計のヒストグラム
このグラフをじっくり見て分かるのは、ずばり22秒を当てた生徒が意外に多いという事と、23秒以上と思った生徒が意外に少なかったという事ぐらいです。
ですがこれに正規分布を重ね合わせると、もっと色々な事が分かってきます。
すなわちこれからが、正規分布の応用に関する話になります。
5. ヒストグラムに正規分布を重ねるとどうなるか
それでは早速、先ほどのグラフに正規分布のカーブを重ねてみましょう。
すると以下の様になります。
これですと、(使用したエクセルの都合上)横方向のポイント数が少なくて、正規分布のカーブがいびつになりますので、横方向のポイント数を増やしたのが以下のグラフです。
これをご覧頂きます様に、この人時計の中心値は22秒から少しずれて、21.7秒になります。
この中心値は、全ての秒数を平均しても分かるのですが、他にも分かる事があります。
例えば、この人時計が製品だとして、その合格の規格を22秒±3秒だとします。
とすると、19秒~25秒の範囲が合格になりますので、このクラスの場合は全て合格品になります。
ですが、もし台数(サンプル数)が多いと正規分布のカーブの様になりますので、僅かながら不良品が発生します。
具体的には、正規分布カーブの19秒未満と25秒超の部分が不良品になります。
その割合をこの正規分布から計算すると、1.7%の不良が発生する事になります。
ですので、もしこの時計を1000個作ったとしたら、17個の不良品が発生すると予想できます。
正規分布を使うと、こんな事が推測できるのです。
6. 正規分布から不良率を求める
先ほどは取り敢えず本書が計算で不良率を求めましたが、ここでは計算を一切しないで不良率を求める方法をご紹介したいと思います。
必要なのは紙と鉛筆だけです、と言いたい所ですが、更にハサミと1g以下を測定できるハカリが必要です。
分解能0.01gの電子天秤
その手順は以下の通りです。
①まず最初にグラフ用紙に先ほどのヒストグラムを描きます。
人時計のヒストグラム
②次にそのヒストグラムに、手書きで釣鐘状のカーブを描きます。
手書きで釣鐘状のカーブ(青線)を描く
このとき、山の頂点はサンプルの平均値(21.7秒)として、なるべく左右対称になる様に心掛けて下さい。
③さらに、規格値である19秒と25秒の所に印を付けます。
④それができたら、ハサミを使ってこのブルーの山を切り取ります。
⑤山を切り取ったら、その山の重さを電子天秤で測定します。
⑥次にまたハサミを使って19秒の所と、25秒の所を切断します。
⑦そして、その切断した両端部の重さを測ります。
⑧それでもし、山全体の重さが1gで、両端部の重さが0.02gだとすれば不良率は2%という事になります。
どうです簡単でしょう。
これで貴方は、応用方法も理解したので、正規分布の6~7割方を理解したと言えます。
とは言え、毎回紙とハサミを使って重さを測るのは手間なので、何とかこれを計算で求めたい所です。(もし一刻も早く計算で求めたければこちらへ)
でもその前に、もう少しこのカーブの見方について勉強しておきましょう。
ここまで事前に知っていれば、次章で正規分布のカーブを描ける様になれば、教授と呼ばれるかもしれません。
7. 正規分布の比較
それでは次に、正規分布同士の比較をしてみましょう。
使うのは先ほどの人時計です。
ただし先ほどは1クラス40人のデータを使用したのですが、今度は1クラスを半分に分けて、左側の20人と右側の20人の正規分布のグラフを作ってみます。
上の二つのグラフを比べると、二つの事が分かります。
先ず左20人の方が、中心値が正解の22秒に近くなっているのが分かります。
ですので、偏(かたより)りについては、左20人の方が少ないといえます。
次に、右20人の正規分布のグラフの方が尖っています。
という事は中心地はずれているものの、バラツキは左20人より少ないと言えます。
偏りとバラツキの原因は異なりますので、もしこれが時計の生産ラインだとしたら、両者を比較して対策を取れば、偏りも、バラツキも少ない時計を作れる事になります。
8. まとめ
それではまとめです。
①正規分布とは、ある条件下で得られたバラツキのある事象の発生頻度が、左右対称の釣鐘状になる現象を指す。
②正規分布は自然界における多くの事象に見られる現象である。
③正規分布を知る事で、不良率や偏り、バラツキの量を知る事ができる。
ここまで理解できたら、正規分布を使いこなしてみたくなりませんか?
もしそうでしたら、是非次を覗いてみて下さい。
本書は4部構成になっており、最終章までご覧頂ければ、10分もあれば誰でも正規分布を縦横無尽に使える様になりますので、是非最後までお付き合い頂ければと思います。
1. 小学生でも分かる正規分布(1/4)