NetaTaneMenu >>>> モンティ・ホールのジレンマ >>>> いくらもらえる? − 確率を解釈する+ ビリヤードのパズル >>>> 仮説検定 >>>> 珈琲豆ブレンド検定

ひょうたん島のセールスマンの巻


統計を勉強していて出てくる仮説検定というのは概念をつかみにくいものです。帰無仮説がどうとか,対立仮説はどうとか,やれ仮説が棄却されるのされないのとか。仮説検定が行われる場面というのを,シナリオ形式で表現してみることにしましょう。


ドンガバチョ(セールスマン): オッホン!わが社の最新式の製品ホゲーXは従来の製品に比べて1時間当たりのエネルギー消費がぐぐぐぐっと小さいのであーる。

ハカセ:ガバチョさん,だったら持ってきた試供品10個を出してみて(ガバチョしぶしぶ出す)。さあ,みんな,試供品のホゲーXをとりあえず1時間回してみて,エネルギー消費を測ってみてくれないかな。

ハカセ:(1時間後)さて,みんなのレポートをまとめてみようか。ええとダンディさんのデータだと,エネルギー消費は1250ガバスだったんだね。サンデー先生のは1304ガバスと,・・・・ふむふむ,他のもまとめて平均すると 1275 ガバス,標準偏差は 35 ガバスってことだな。・・・・これくらい暗算でもこのとおりスイスイさ,ボクにとってはネ。

ドンガバチョ:そーらごらんなさい。ワタクシの言っていることは間違いないざんしょ?

ハカセ:まだ何にもきまってないじゃないか,ガバチョさん。えっと,ボクの頭の中のデータベースによると,この島にあったホゲーオリジナルだと時間当たりエネルギー消費は 1284 ガバスで,その標準偏差は 40 だったはずだ。

サンデー先生:ほーらハカセさん,ガバチョさんだって正直なときは正直なのよ。人を疑うのはよくないわ。1284ガバス が 1275ガバスに減ったってことは,やっぱりホゲーXって少しはいいんじゃないの?

ハカセ:いやいや,ものごとは疑ってかかることだって必要だと思うな。えっと,つまり,ガバチョさんが持ってきた10個の試供品はトラヒゲデパートにあったホゲーオリジナルの包装だけ変えたんじゃないかってことは十分考えられる。だけどたまたままぐれで成績がよかったのかも知れないって可能性がありうるかどうかを考えてみないとね。


さて,みなさん。ガバチョの主張,つまり「ホゲーXはホゲーオリジナルよりも優れたエネルギー消費性能をもつ」を,ハカセは棄却できる仮説なのではないかと考えています。どうやってやるのでしょう?・・・・こういうのが仮説検定の典型的な問題なんですね。

いやはや, 統計ですか。苦手というよりはあんまり勉強したことがないんですよね。でもね,こういう風に書いてもらうと気になります。面白そうですね。試料の分布の具合から真相を想定するんでしょうか。ばらつきから浮かび上がる図形の重なり具合なんて思うと幾何ですなあ。でも一次元じゃ仕方ないかあ...?!

こういう場合ってコンピュータって便利ですよね。ちょこっとソースを書いて,ホゲーオリジナルな時間当たりエネルギー消費平均1284ガバスかつ標準偏差40の集団のサンプルを作ってみてそこから無作為に10個を選んでみる。なんていう実験ができますよね。

さすがですね。実はそのとおりのことをやってます。昔は標本抽出なんてことを実験することは不可能だったので,理論式を導いてその応用問題を解くというやり方しか統計理論をものにする方法はありませんでした。定性的,経験的な理解が難しかったのです。しかし今は抽出のシミュレーションが簡単に,しかもウェブ上のCGIプログラムでも実験できる時代です。

ははあ,そうなんですね。昨日書き込んだ後に,やっぱり書き込むだけだと無責任?だしなあ,なんて思ってちょちょいとソースを書いて動かすか!と思い,十進ベーシックを立上げてみたのですが,早速「集団のサンプル」を造るところで詰まっちゃいました。一応1000個なら1000個と決めてサンプルを創りたかったのですけど...しくしく。で,悔し紛れに,それを「実際にせず」に「理で行うの」が数学じゃあないか!なんて。でもねん…


話しは変わるようで変わらないのですが,僕は珈琲をよく飲みます。先日20年来使い続けていた珈琲メーカが壊れてしまい,新しいものを購いました。パートナが豆が挽けるのが良いと主張し,珈琲ミル付きのメーカを選びました。そこで最近は専ら豆で珈琲を買います。そこでふと思った疑問は,珈琲のブレンドってどの程度の精度なんでしょうか。どのように考えればよいでしょう。

というのも,珈琲豆のブレンドってきっと産地やグレードの違う生豆を一定の割合で混ぜて焙煎しているのですよね。挽いた状態であれば,その混ざり具合はある程度の均一さが期待できますが,豆の状態ではどうなのでしょうか?どのように評価することが考えられるでしょうか?っていう話しです。豆なら離散,粉(液)ならまあなんとなく連続っていうイメージですが…豆を買う機会が多くしかも買う量が少量な僕にとっては気になる問題だったりします。気になるからどうこうするというわけでもないのですが。

ブレンドしたものでも,同じ袋から出てきた豆なら(袋の上下などによる物理的な分布は無視して)同一の母平均,母分散をもつサンプルですから,豆粒をたとえば50個というように数えて使うようにすれば,きわめて分散の小さい質量を毎回使うことになるはずです。なぜなら,母分散/豆の数という値が標本平均の分散になるからです。この結果は母集団が正規分布していなくても正しいので,非常に強力なんです。また,数が大きければ同時に標本平均の分布は正規分布とみなせて,中心極限定理の1つの例になります。ただしこれは豆の質量の分布。豆のブレンドの変動は多項分布で決まりますから,50粒のうち少ない成分が10粒程度ということになると,そこそこ変動することになりますね。

珈琲が好きと言いながらも,そういや毎回適当に(面倒臭がり屋なもんで)大量に淹れます。でも一回に何個の豆を使っているかは数えたことがないなあ。一度数えてみなきゃね。ブレンドするときに使う豆の種類と割合ってどの程度なんでしょうね。疑問?に思う理由はその通りで,50個や100個ほどの豆なら変動が大きいんじゃないかってことです。で,どの程度に大きいのか。通な人はそのことをどう感じているのか?ですね。

今回の問題に合わせれば毎回同じブレンドの珈琲を飲んでいると言って良いのか?です。あるいは,そうする為にはどの程度の数の豆を一度に挽けば良いのか?ですね。こういうのって,統計のネタとして使えるぐらい一般的で簡単な問題なんだろうか...ってその程度のことがぱっと分からないぐらい統計について知らないという話だったりしたりして。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2005-10-29 (土) 07:33:26 (5812d)