ABテストの有意差とは? テスト結果を統計的有意性で見極める | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

ABテストの有意差とは? テスト結果を統計的有意性で見極める

ABテストを行ってみたいけれど、「どのように結果を評価すればいいのか?」
「どれくらいの期間テストをすればいいのか?」というご質問をいただくことがよくあります。
正しい判断をするためには、結果に差がついたと言えるのか見極める必要があります。
そのためには、統計学にもとづいた「有意差」を理解する必要があります。
今回は、テストの判断基準となる「有意差」について知っておくべきポイントをお伝えします。

手っ取り早くテスト終了の目安を知りたい方は、下記の記事をご覧ください。

目次

ABテストにおける「有意差」とは

「有意差」とは、「明確な差があり、それは偶然起こったものではないといえるかどうかを検討した結果の差」を意味します。
ABテストにおいて「有意差がついた」と言えばオリジナルパターンとテストパターンの差異が、エラーや偶然に起因しない可能性の高さを指します。その差が偶然生じたわけではなく、何らかの要因によって起こるべくして起こっていると認められた場合、それは「有意差」と呼ばれます。「意味の有る差」が生じているということです。逆に、「有意差」が認められない場合、その結果は誤差の範囲という判断となります。

ABテストに有意差がなぜ必要なのか

ではなぜ「有意差」への理解が必要なのでしょうか?
ABテストでは、「どちらのパターンを選ぶべきか」という判断がつきまといます。ABテストはあくまでもサンプルを元にした推計ですので、誤差の範囲であったり、サンプル数によって結果が変わるような場合、曖昧な判断で結論を出してしまうと、後々コンバージョン率が上がらなかった、成果につながらなかったという問題につながります。「なんとなく差がありそうだ」という感覚に基づいて評価をすると、わざわざテストを行っている意味が失われてしまう事になりかねません。
ABテストの信頼性をより正確に判定し、有効活用できるデータとするために有意差の確認が必要です。

ABテストの有意差を判断する統計的検定

一見明らかな差が生じているように見えても、母集団が小さい(サンプルが少ない)場合などには有意差と認められない場合があります。
「有意差」があると確認するためには、何らかの統計的検定(仮説検定)が必要です。

統計的検定で知っておくべき用語

統計的検定において知っておくべき各用語を簡単にご紹介します。
統計的検定(仮説検定)については下記にも詳しくご紹介しています。

A/B テスト結果を正しく判断するために~①仮説検定について

仮説検定で用いられる用語

帰無仮説:検証したい、証明したい仮説。
対立仮説:帰無仮説が成り立たない状態、反証となる仮説。
有意水準:帰無仮説を棄却するときの判断基準となる数値。慣例的には5%、1%とする。
p値:帰無仮説のもとで実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率。

 
例)ABテストで、 AとBの平均値に差がない(帰無仮説)
         AとBの平均値に差がある(対立仮説)
「帰無仮説を否定(棄却)して、対立仮説が正しい事を証明する」のが、ABテスト結果を採用するかどうかを判断する基準(偶然ではなく必然)となります。

ABテストの結果に「有意差がある」という証明を行います。「パターンBが勝利しているのは偶然の結果ではない」という結論です。
この場合、「帰無仮説」は、「2つのパターン(パターンAとB)にはコンバージョン率に差が出ない」、「対立仮説」は「2つのパターン(パターンAとB)ではコンバージョン率に影響を与える差がある」となります。

統計学の考え方では、「2つのパターンに差はないと仮定した場合、ABテストの結果である〇〇%以上のCVRの差が起こる確率は、1%未満(p<0.01)である。 有意水準を下回る確率であるので、今回の結果は偶然ではなく必然と考え(有意差が生じている)Bパターンを採用すべき」 と結論するときの、「1%未満」の部分が「p値」になります。 このように、「p値」とは、今回のABテストの結果が偶然起こる確率を示します。 このような仮説検定もあくまで確率論であるため、合理的な判断ではあるが、真実とは限らない、ということは理解しておかなければなりません。

統計的検定手法

ABテストで用いる統計検定手法には複数あり、条件に応じて使用できるかどうかが異なります。
いくつかの検定手法についてかんたんにご紹介します。

二項検定

二項検定は、2つのカテゴリに分類されたデータの比率が、理論的に期待される分布から有意に偏っているかどうかを、二項分布を利用して調べる統計学的検定です。
コイン投げ(表が出たら成功、裏が出たら失敗)のような、何かを行ったときに起こる結果が2つしかない問題では、このとき、成功した回数とその確率は、二項分布に従うことになります。サンプルサイズが小さい場合にも使用できます。

χ2(カイ二乗)検定

χ2(カイ二乗)検定では、帰無仮説が正しいと仮定したとき、検定統計量が(近似的に)カイ二乗分布に従うような仮説検定手法の総称です。
χ2(カイ二乗)検定は別名「独立性の検定」とも呼ばれます。「独立→関係がない」「独立でない→何か関係性がある」という意味合いです。データ数が少ない場合は、観測データを確率変数として扱うため許容誤差が大きくなり、はっきり有意差を得られない場合があります。よってABテストでは、サンプルサイズが大きい場合に使用できます。
Excel上で簡単に計算可能なので、よく利用されます。

t検定

t検定では、帰無仮説が正しいと仮定したとき、検定統計量がt分布に従うことを利用する統計学的検定法の総称です。
t検定については下記に詳しく説明しています。

A/B テスト結果を正しく判断するために~②t検定とは?

ベイズ推定(ベイズ検定)

二項検定やχ2(カイ二乗)検定、t検定は頻度論における仮説検定といいます。
ベイズ推定では、それとは違った考え方やアプローチで仮説検定を行います。
頻度統計では、観測データを確率変数とし、その誤差が考慮された有意差となるため、サンプル数が少ないと明確な判定にはならない可能性が出てきます。
ベイズ推定は、既存の情報と追加された情報を合わせて新しい情報をつくり出す過程をモデル化したものです。ベイズ推定には、母集団の未知パラメータを確率変数とみなし、データを定数として扱う考え方があります。計算が複雑であるためコンピュータによる処理が必要ゲスが、得られたデータから一番もっともらしい母集団の確率分布を置きます。
少ないサンプルでも推移に一貫性があれば、結果を得ることができます。
ベイズ推定については下記にも説明しています。

機械学習の理解に必須!ベイズ統計学の基礎の基礎

SiTest を始めとしたA/Bテストツールの多くはベイズ推定を使用することが多くなっています。

ABテストの有意差はSiTest が導き出す

ここまでで、有意差の判断には検定が必要なことを理解いただけたと思います。
しかし、実際に統計学を理解し、p値の計算などを行うのはかなり大変です。
SiTest では、ABテストを実行すると、レポート画面にベイズ推定を元にした各パターンの勝利する確率や勝利を示すトロフィーマークが表示されます。
統計学や検定の知見がなくても終了の目安を知ることができるようになっています。
テストレポート

まとめ

今回はABテストにおける有意差と検定による判断の必要性をお伝えしました。
結果が偶然なのか必然なのか、正しく判断するために「有意差」の理解が必要です。
「有意差」がわかれば誤差の範囲の結果を重視したり、差がついているにも関わらずむやみにテスト期間を伸ばすリスクを低減できます。
ただし実際にはSiTest のようなツールに判断を支援する機能が実装されていることが多いので、概念が理解できれば実際の運用はツールに頼ることが賢明です。

またテスト結果は定量的に分析するだけでなく、ヒートマップなどを比較して定性的に分析することで、なぜそのような結果になったのか深い知見を得ることができます。
あなたもSiTest を使ってスピーディーなABテストを行ってみませんか?
トライアルも行っておりますので、ぜひお気軽にお試しください。

▼無料トライアルのお申込みはこちらから
https://sitest.jp/register.html