知らぬとコワイ統計学2

なるほど・ザ・すうがく
視聴率っ! こんなにアバウト?  その2

 視聴率を調べているビデオリサーチ社によると、この視聴率は関東地区の一部の世帯を調べて算出しているとのこと。
 このような調査方法は「標本調査」と呼ばれています。標本を増やすほど結果は正確になる反面、コストがかかる。標本を減らすほどコストは下がるが誤差が大きくなる。
 ビデオリサーチ社によると、誤差とコストのバランスを考えたとき、600世帯が妥当だというのです。600世帯でどの程度正確なことがわかるのでしょうか?


ザ・視聴率調査〜関東地区を調べよう〜

そこで、視聴率調査シミュレーション。関東地区600世帯の模擬調査を試してみました・・・・といっても、次のような方法です。

自然食品コーナーに行って、赤米と黒米を購入。写真のように、白米の入った容器に赤米、黒米を入れてふたをし、十分にシャッフルします。(白米・赤米・黒米は粒の大きさは同じです。混合比率は4:1:1にしてみました)。

こうして容器の中に混在している米粒のうち、
 赤米・・・ドラマA
 黒米・・・ドラマB
 白米・・・その他の番組
と見立てて、600粒をすくい出して数え、それぞれ何%含まれるのか調べようという試みです(15mlの計量スプーンで軽くすくうと、おおむね600粒になります)。




右の写真は、数えているところです。

数え終わったら、赤米が何%、黒米が何%になったかカードに記入して、そのカードを黒板の数直線のところに各自、貼り付けます。


結果は、この通り。ピンクの縦線が16.7%のラインで、本来の混合率。
 それに対して、600粒標本が示す値は、ときには、21.3%だったり、15.4%だったりと、ぴったり16.7%という値はほとんどみられません。これは、たまたま、標本600粒の中に赤米が多く入ってしまったり、少なく入ってしまったりするからです。

 実験を繰り返していくと、標本が示す値は、ピンクの線ぴったりではなく、ピンクの線を中心に両側に多少ずれた分布の仕方をすることがわかります。 しかも、「ある程度の範囲」内に散らばっていることがわかります。(たまには、範囲をおおきくはずれる値もある)
これが、『標本誤差』。

600粒の標本ではおおむね左右に3%の範囲の誤差があるのです。・・・ということは、標本値の差が0.1%程度では、単なる誤差なのか本当に差があるのか判断不能です。左右に3%だということは誤差の幅はその2倍の6%。それを超える差がなければ判定不能です(アバウトなんです)。

判断には、誤差の幅を上回る差が必要。これは『有意差』と呼ばれています。


<<参考>>
 わざわざ実験しなくても、標本の誤差の範囲は右式で予測可能です。たまに(20回に1回)、はずれる値もありますが・・・。
 また、「左右に3%」というのは、真の値が16.7%の場合であり、真の値が50%のときの誤差は左右に5%、真の値が2%のときは左右に1%・・・といった感じになります。