A/B テスト結果を正しく判断するために~①仮説検定について
ウェブサイトの改善には、Google Analytics をはじめとしたアクセス解析と、SiTest をはじめとしたヒートマップ解析などを組み合わせて、現状のウェブサイトを分析することが必要です。さまざまな角度からウェブサイトの問題点を洗い出し、その部分の改善案を考え出してはA/Bテストを繰り返す、といったサイクルを繰り返す必要があります。
以前、「A/Bテストの終わりを見極める!統計的有意差と仮説検定入門」という記事にて、A/Bテストの結果をどう見ればよいか、検定の方法とともにお伝えいたしました。とても多くの反響をいただいたのですが、改めてもっとわかりやすく書いてほしいとの要望がありました。
今回は、「仮説検定」について、一緒に学んでいきましょう。
1.初心者でもわかる仮説検定
そもそも、仮説検定とは?
仮説検定の目的は、母集団で仮定された仮説を、標本(母集団の一部分)に基づいて検証することです。仮説とのズレが誤差の範囲内なのかをみるのですね。仮説とのズレが何らかの意味を持つのならそのズレは「有意」であるといいます。
文章だけでは、なんのことかよくわからないと思います。実際に、例をもとに説明していきましょう。
例題)
あなたには、今からコイン投げの賭けをできる権利が与えられました。
表が出ればディーラーが勝ちで1,000万円をディーラーに払います。裏が出ればあなたが勝ちで1,000万円をディーラーからもらえます。
ただし、コインはディーラーが用意したものとします。このコインを、30回投げるテストをしてみたところ、22回表が出ました。
あなたは、この賭けをしますか…?
このとき、あなたはどう感じるでしょうか?
「30回のうち22回の表が出るくらいであれば、普通に起こりうるから、コインに仕掛けはないな」と思うでしょうか?
「30回のうち22回も表が出るのは絶対におかしい。きっとコインに仕掛けがあるに違いない!」と思うでしょうか?
感覚ではどちらでも有り得そうです。しっかり吟味しないと、1,000万円を失うことにもなりかねません。数学的にしっかり考察していきましょう。
帰無仮説と対立仮説
もしコインに仕掛けがない場合、半分の確率で表か裏が出ます。
表が出る確率をpで表すとすると「p=1/2」と書くことができます。
逆に、コインに仕掛けがある場合は「p≠1/2」と書くことができます。
「コインに仕掛けがない(p=1/2)」という仮説を「帰無仮説 H0」
「コインに仕掛けがある(p≠1/2)」という仮説を「対立仮説 H1」
と呼びます。
仮説検定では、「帰無仮説 H0」について吟味を行い、それを否定することで「対立仮説 H1」が正しいことを証明する、という方法を取ります。
吟味しやすい「帰無仮説 H0」が一旦正しいとして検定を行い、その結果を基に「対立仮説 H1」が正しいのかを証明していきます。
実際に計算してみよう
「帰無仮説 H0:コインに仕掛けがない」が正しいとすると、30回のうち22回表が出る確率は、
となります。
22回以上表が出る確率をすべて足し合わせると、
となり、約0.8%と計算できます。
もしもコインに仕掛けがなければ、30回中に22回以上表が出る確率は約0.8%ほどとなります。これは、コインを30回投げるという試行を125回繰り返して、22回以上表が出るのがやっと1回あるくらいの確率です。
「帰無仮説 H0:コインに仕掛けがない」が正しいとすると、今回のように30回のうち22回表がでるようなことはかなりレアなことのような感じがしますね。
仮説検定では、レアなことは起こらない、という判断をします。そのため、
「帰無仮説 H0:コインに仕掛けがないは正しい」は棄却され、その結果として
「対立仮説 H1:コインに仕掛けがあるは正しい」と判断できるのです。
30回のうち22回表が出る確率、というのをもう少し細かく説明します。
いま、コインには仕掛けがないという仮説のもと計算していますので、1回コインを投げたときに表が出る確率は1/2です。
次に、30回のうち22回表が出るのは何通りあるでしょうか。
30回の試行のうち、表が出る試行番目を22個選ぶ選び方を考えれば良いですので、30C22と表すことができます。
各試行番目に表が出る確率は1/2、表22個裏8個の順番の並べ替え方が30C22通りあるので、
と表すことができます。
Excelでは、簡単にこの値を計算することが可能です。COMBIN 関数を用いて、COMBIN(30,22)/2^30と表せます。
上記のように、実際の計算をしてみないと、レアなことかどうかが判断つきません。対立仮説 H1では、p≠1/2ですので、(注1)のように計算ができないのです。
そのため、計算ができるものを「帰無仮説 H0」として計算を行い、それをもって「対立仮説 H1」の正誤を判断する手法を取るのです。
2.レアな事象かどうかはどう判断するのか?
有意水準
さきほどは、計算して求めた値 0.008(0.8%)を「レアな事象」と判断しましたが、この判断は人によってブレが生じます。そのため、判断する人によるブレを防ぐために共通の基準が作られており、それを「有意水準」といい、通常は α を用いて表します。
基本的には、有意水準10%(0.1)、有意水準5%(0.05)、有意水準1%(0.01)などがよく用いられます。(両側検定の場合)
今回の例では、対立仮説 H1 は以下のように設定していますね。
「対立仮説 H1:コインに仕掛けがある p≠1/2」
このとき、無意識で「コインに仕掛けがある=表が出やすくなっている」と考えてしまいがちですが、当然「表が出にくくなっている」可能性もあるわけです。
今回は、「表が出やすくなっている場合(p>1/2)」のみを考えていたので、これを「片側検定」と言います。「表が出にくくなっている場合(p<1/2)」も含めて仮説検定を行えば、それを「両側検定」と言います。
通常の検定では、両側検定を基本に考えます。
有意水準5%(α=0.05)で仮説検定を行う場合を考えると、帰無仮説 H0が正しいと考えたときに、表が22回出る確率p=0.008と、逆に表が8回しか出ない確率p=0.008を足して、P=0.016が有意水準α=0.05を下回っていることが、帰無仮説 H0を棄却するためには必要となります。
有意水準5%(α=0.05)とした場合、α=0.05>P=0.016 なので、今回の事象は「レア」だと言えます。
有意水準1%(α=0.01)とした場合、α=0.01<P=0.016 なので、今回の事象は「レアではない」と考えます。
レアだと言えるとき、帰無仮説 H0は棄却され、対立仮説 H1が受容されます。
レアだとはいえないときは、帰無仮説 H0は棄却できず、帰無仮説 H0と対立仮説 H1のどちらが正しいか(まだ)判断できない、ということになります。
3.あくまで判断であって、真実とは限らない
各用語のおさらい
真実に対して、帰無仮説 H0を棄却するかしないかの判断を誤ってしまう事がありえます。
本来は帰無仮説 H0が正しいにもかかわらず、帰無仮説 H0を棄却してしまう誤りを「第一種の過誤」といい、
本来は帰無仮説 H0は誤っているにもかかわらず、帰無仮説 H0を棄却しないでいてしまう誤りを「第二種の過誤」といいます。
今回の例で言うと、
本当はコインに仕掛けがないにもかかわらず、仕掛けがあると判断してしまうことが「第一種の過誤」、
本当はコインに仕掛けがあったにもかかわらず、仕掛けがないと判断してしまうことが「第二種の過誤」です。
「第一種の過誤」が起こる確率は、有意水準α で決まります。
第一種の過誤は、有意水準α とP値を比較して判定を行うことから、有意水準α を小さくすることで起こりにくくなります。
有意水準α は自分で決めることができるので、第一種の過誤はコントロールが比較的容易です。
しかし、それによって第二種の過誤を起こす確率は高くなってしまいます。
つまり、「第一種の過誤を起こす確率」と「第二種の過誤を起こす確率」はトレードオフの関係にあり、有意水準を調整するだけでは、両方の誤りを減らすことはできません。
そのため、分析者はどちらの誤りをより起こしたくないのかを考え、有意水準α を調整することになります。
仮説検定はあくまでも確率論であって、常に間違っている可能性を孕んでいます。つまり、仮説検定で得られた結果は、確率統計上合理的な判断であり、それが真実とは限らないということは常に頭に入れておく必要があります。
4.まとめ
今回は、コインの賭けの例をもとに、仮説検定の基礎を学んできました。A/Bテストでは、この仮説検定の基本をもとに、様々な検定手法でそのテスト結果が有用なデータかを判断することになります。
先ほどの文脈を借りれば、第一種の過誤は「本当は効果のないパターンに効果があるとみなしてしまう」、第二種の過誤は「本当は効果があったパターンを効果なしとみなしてしまう」という事象になります。この過誤をできるだけ減らし、より効果のある施策を探していく作業が、A/Bテストなのです。
最終的には、ツールに付属している信頼区間の表示や、無料で提供されている判定ソフトに判断を委ねても良いですが、どういうロジックで算出されているかを理解していないと、その分真実から遠くなる可能性があります。しっかりと理解をしておきましょう。
(参考リンク)
「仮説検定とは?初心者にもわかりやすく解説!」(to-kei.net)
「統計学の鬼門「統計学的仮説検定」とは何か? – 瀬下大輔のマーケターが身につけたい統計学(仮説検定・回帰分析編)」(WPJ)
-
お問い合わせ
SiTest の導入検討や
他社ツールとの違い・比較について
弊社のプロフェッショナルが
喜んでサポートいたします。 -
コンサルティング
ヒートマップの活用、ABテストの実施や
フォームの改善でお困りの方は、
弊社のプロフェッショナルが
コンサルティングいたします。
今すぐお気軽にご相談ください。
今すぐお気軽に
ご相談ください。
(平日 10:00~19:00)
今すぐお気軽に
ご相談ください。
0120-315-465
(平日 10:00~19:00)
グラッドキューブは
「ISMS認証」を取得しています。
認証範囲:
インターネットマーケティング支援事業、インターネットASPサービスの提供、コンテンツメディア事業
「ISMS認証」とは、財団法人・日本情報処理開発協会が定めた企業の情報情報セキュリティマネジメントシステムの評価制度です。