【中心極限定理】自分のデタラメな記録に法則はあるのか?

新型コロナウイルスが問題になっていた頃は、はるか昔の感覚ですが、時が経つのは早いです。

その頃ですが、私の会社では毎日体温の測定をして、それを記録しておくというルールがありました。しかし、日が経つにつれて、だんだん記録をつけるのも曖昧になっていきました。

私も初めだけは真面目に体温を測って記録していましたが、途中からめんどくさくなって、デタラメにその日の気分で体温を記入するようになっていきました

それから、さらに日が経って適当に記録することすらなくなってしまいました。

結局記録に残っているのは、2021年〜2023年の600日程度です。データとしては、出勤前と退勤後の1日2回の体温を毎日、平日、土日関係なく記録したものとなります。

今になって、デタラメに入力していたにしても、このデータはもったいないなと思いました。

そこで、私がデタラメに入力していた記録は、どういったものだったのかについてみてみることにしました。

データのヒストグラム

入力していた体温について、どのような分布になっているか確認するために、0.1℃単位でデータを区切ってヒストグラムを描いてみました。出勤前と退勤後とそれをまとめたものの3種類で描いてみました。

なお、先も言いましたが、ここのデータは実際に測った体温も含まれていますが、8割〜9割は私が適当に記録したものということに注意してください。

データ数は、出勤前=612、退勤後=611、すべて=1223

出勤前の体温のヒストグラム
退勤後の体温のヒストグラム
すべての体温のヒストグラム
出勤前退勤後すべて
平均値36.00736.01936.013
標準偏差0.2370.2020.220
体温の平均値と標準偏差

ほんの少しですが、出勤前の方が体温が低めに記録されています。朝の方が体温低いだろうとなんとなく考えていたのが、影響したのでしょうか。

また、 平均値は36℃で、そこを境に左右に均等に頻度が少なくなっている正規分布のような分布であることがわかります。意図せずこのような分布になっていたとは結構驚きです。

正規分布でフィッティング

先の実測値(すべて)のヒストグラムについて、確率に直して、平均値=36.013と標準偏差=0.220の正規分布と比較してみました。

結構、正規分布になっていると思います。35.8~35.9が少ないですが、これは私のくせ?のようなものなのでしょうか。

正規分布に近いかどうか確認する方法としてQ-Qプロットを描いてみました。

Q-Qプロット(Quantile-Quantile Plot)は、2つの確率分布を比較するための図です。2つの分布が類似している場合には、プロットが一直線に並ぶとのことです1)

中央部分は直線に近くなっており、大部分は正規分布と近い分布になっていることがわかります。

ただ、正規分布に比べて、体温の高い部分で、実測値は正規分布に比べて小さい値になっており、正規分布よりは裾が軽い(体温が高い値が少ない)分布であることがわかります。

逆に体温が低い部分は正規分布と割と一致している(直線上)ので、体温が低い部分よりも体温が高い部分のランダム性が少ないのかなと感じました。

まとめ

今回、私のデタラメな体温の記録でも、大量に集めてみると、正規分布に近い分布といった法則性が見出せることがわかりました。

仮に、私のデタラメな体温の記録に「デタラメな体温=平均値(まあ大体自分の体温は36℃くらいだろう)と、複数のいろんなランダム性(日々の変動等)」という、規則があるなら、標本の数が十分多い時に、独立したランダムな変数の平均が正規分布に近づく、といった「中心極限定理」が当てはまり、私の記録が正規分布に近くなったことはなんとなく、説明がつくのではないでしょうか。

また、仮に体温計を使って体温を測定した場合もばらつきはあると考えれ、このランダム性が複数の要因によって引き起こされているとすれば、体温計を使って測った場合も正規分布になることが予想されます。

デタラメに計測しても、体温計を使った場合でも正規分布に従うとするならば、これらの分布にはどの程度の差があるのでしょうか。気になります。もう体温を測るのめんどくさいですけど。

デタラメの記録の個人差も考えられると思いますので、いろんなサンプルがあれば、もっと人間の思考のランダム性のようなものが明らかになるような気がしないでもないでもない?

参考サイト

  1. 32-2. 正規性の確認
  2. 中心極限定理とは?具体例で丁寧に解説

コメント

タイトルとURLをコピーしました