A/Bテストに必要なサンプル数とは?正確な検証に欠かせない計算方法を解説
A/Bテストのサンプル数や結果の信頼性は、把握しづらく不安を感じるポイントです。誤って設定した場合、A/Bテストの結果が無駄になる可能性もあります。今回の記事では、A/Bテストのサンプル数を決める理由や計算方法、注意点や結果分析のポイントを解説します。
A/Bテストで信頼できる結果を得るには、適切なサンプル数の設定と根拠の理解が不可欠です。記事を読むことで、A/Bテストで有効なサンプル数の考え方と計算方法がわかります。事前に必要な要素を把握し、適切なサンプル数を設定しましょう。
» A/Bテストの基本とおすすめのA/Bテストツールを紹介!
目次
- A/Bテストのサンプル数を決める理由
- A/Bテストのサンプル数に必要な要素
- A/Bテストのサンプル数の計算方法
- A/Bテストのサンプル数を計算する際の注意点
- A/Bテストのサンプル数が足りないときの対処法
- A/Bテストの結果を分析する際のポイント
- まとめ
A/Bテストのサンプル数を決める理由
A/Bテストにおけるサンプル数の重要性は以下のとおりです。
- ・十分な量で正確な結果を得るため
- ・統計データの有効性を保つため
- ・テスト期間を最適化するため
十分な量で正確な結果を得るため
A/Bテストで正しい判断をするには、十分な量のデータが必要です。サンプル数が少ないと、A/Bテストの結果が左右されるため、本当の効果なのか判断が難しくなります。一方、A/Bテストで十分なデータを用いると、偶然の影響が小さくなり、より信頼性の高い結果が得ることが可能です。
A/Bテストで新しいウェブサイトのデザイン案を試すケースでは、数人の意見だけで決める場合があります。A/Bテストのサンプル数が少ないと、デザインが多くの人に受け入れられず、反応の少ないウェブサイトになる恐れがあります。対策として、A/Bテストのサンプル数を増やす方法が有効です。
多くの人が試すほど、A/Bテストの検証の精度が高まります。A/Bテストのサンプル数を十分に設定すると、間違った判断でお金や時間を無駄にするリスクを減らせます。
統計データの有効性を保つため
A/Bテストの正確な検証結果を得るには、統計データの有効性を正しく理解し、適切な手法を用いましょう。十分なサンプル数を用いると、A/Bテストは統計的に意味のある結論を導くことが可能です。A/Bテストで信頼性の低い結果にもとづいた判断を下すと、誤った方向に進む恐れがあります。
統計を効果的に活用し、信頼性の高いA/Bテストを行うためには、以下の状態を目指す必要があります。
- ・偶然の変動を排除する
- ・信頼性を保つ
- ・判断ミスによるリスクを軽減する
- ・結果の再現性を確保する
- ・リソースの浪費を防ぐ
上記の状態を維持することで、ABテストから得られるデータの質が高まります。
テスト期間を最適化するため
A/Bテストを行う際は、テスト期間を正しく設定しましょう。A/Bテストの期間が不必要に長引くと、時間や労力などの資源が無駄になります。短すぎる場合は、A/Bテストのデータ不足により正しい判断が難しくなります。A/Bテストの期間を最適化することで、得られるメリットは以下のとおりです。
- ・見積もりが明確になる
- ・早期結論と行動ができる
- ・外部要因が影響する前に完了できる
- ・やり直しや判断ミスを防止できる
ABテストを実施しながら、最適なテスト期間を見つけましょう。
» ABテストの最適な期間と期間を決める6つの要素
A/Bテストのサンプル数に必要な要素
A/Bテストでは、サンプル数の他にも必要な要素があります。結果に影響を与える以下の項目を解説します。
- ・コンバージョン率
- ・A/Bテストの目標指標
- ・有意水準
- ・検出力
コンバージョン率
必要なサンプル数を知るには、コンバージョン率に加えて、有意水準、検出力、検出したい最小の差などを計算する必要があります。ウェブサイトやアプリ上で目標とする行動(コンバージョン)の達成率を把握しておくことは、A/Bテストの前提条件の一つです。
現在のコンバージョン率が低い場合、A/Bテストの結果を正確に判断するため、より多くの人数で試します。A/Bテストのゴール地点について、商品の購入完了や会員登録、資料請求などを明確に決めることも大切です。
コンバージョン率を測定する際は、ウェブサイトの訪問者総数に対し、購入や会員登録などの目標を達成した人の割合に注目します。過去のデータを使って、ベースラインコンバージョン率をできるだけ正確に把握しましょう。
A/Bテストの必要なサンプル数を計算する基礎になるため、信頼性のある結果を得るには重要です。
A/Bテストの目標指標
新旧のデザインや機能を比較する際、コンバージョン率(CVR)やクリック率(CTR)などの指標の改善度合いを測定します。指標に対する目標値を設定する目的は、A/Bテストの結果に明確なゴールを設けるためです。ビジネスの目標を達成するには、指標の継続的な改善が欠かせません。
ウェブサイトのボタンの色を変えるテストでは、クリック率を5%以上向上させたい場合、目標の相対的改善率は5%と設定します。A/Bテストにより、最適な施策を判断できます。改善率を設定する際は、過去のA/Bテストの結果や業界平均値を参考に、実際に達成できそうな範囲で改善指標を設定しましょう。
有意水準
有意水準とは、統計学における仮説検定で、得られた結果が偶然ではなく統計的に意味があると判断するための確率的基準です。A/Bテストの結果に違いが見られた場合、違いに意味があるか、偶然なのかを見極めるために有意水準を使用します。
帰無仮説が正しいときにデータが得られる確率が5%(0.05)未満なら、統計的に有意と判断します。A/Bテストの結果、偶然起きた可能性が5%未満の場合は、偶然ではなく意味のある違いだと判断が可能です。
有意水準を1%のように低く設定するほど、厳しい基準を満たしたA/Bテストの結果が得られます。有意水準の低い設定は、慎重な判断をしたいA/Bテストで使用しましょう。有意水準の値の設定は、A/Bテストで求める精度を左右します。
一般的に、有意水準を厳しく設定するほど、A/Bテストには多くのサンプル数が必要です。
検出力
検出力とは、A/Bテストの結果から、本当に効果がある内容を正しく見つけ出す力のことです。検出力が低いと、本来改善が見込めたアイデアを効果がないと判断し、改善のチャンスを見逃す恐れがあります。検出力は、本当は差があるのに気付かないミス(第2種の誤り)の防止としても役立ちます。
一般的に、検出力の数値は80%以上が望ましい状態です。実際に効果がある場合、統計的に検出できる確率が80%以上であることを意味します。言い換えれば、真の効果が存在する状況で検定を行うと、約80%の確率で効果を正しく検出できるということです。検出力は以下の要素の影響も受けます。
- ・サンプル数(サンプルサイズ):A/Bテストに参加する人の数
- ・期待される効果量:見つけたい効果の大きさ
- ・有意水準:判断基準の厳しさ
A/Bテストに多くのサンプルが参加することで、統計的な検出力は向上します。小さな効果を測定したいA/Bテストでは、高い検出力が必要です。検出力の設定は、A/Bテストの正確性に影響します。A/Bテストを始める前に、検出力の設定をしっかり行いましょう。
» J-STAGE「効果量と検定力分析入門―統計的検定を正しく使うために―」(外部サイト)
A/Bテストのサンプル数の計算方法
A/Bテストのサンプル数を正しく理解するために、以下の計算方法を解説します。
- ・【初心者向け】無料オンラインツールを活用する
- ・【実務者向け】Excelを使って自分で計算する
- ・【データ分析担当者向け】R(統計ツール)で精密に計算する
【初心者向け】無料オンラインツールを活用する
A/Bテストに必要なサンプル数を手軽に計算したい場合は、無料で使えるオンラインツールを活用する方法が便利です。統計の専門知識がなくても操作しやすく、初心者でも簡単にサンプル数の計算に使えます。
例えば、コンバージョン率を1%から1.5%に改善する場合、必要なコンバージョン数と統計的有意性を考慮し、母数を計算する必要があります。計算結果はA/Bテストの計画立案時に重要な指標です。ツールを用いたコンバージョン率改善施策(CTA最適化・LP改修など)と組み合わせることで効果的な改善が可能です。
事前に必要なサンプル数を把握しておくことで、A/Bテストの結果の信頼性も高まり、無駄な判断ミスを防げます。
【実務者向け】Excelを使って自分で計算する
業務でA/Bテストを行う場面では、Excelを使って自分でサンプル数を計算できると便利です。テンプレートを作っておけば、プロジェクトごとに条件を変えるだけで繰り返し活用できます。サンプルサイズの計算には、信頼水準に対応するZスコア(例:95%信頼水準で1.96)と標準偏差、許容誤差を用いた式が使われます。
CVRが1%、目標が1.5%、有意水準が5%(両側検定)、検出力が80%の場合、以下のような計算式で必要なサンプル数の計算が可能です。
『= ((NORM.S.INV(1-0.05/2) + NORM.S.INV(0.8))^2 * (0.01*(1-0.01) + 0.015*(1-0.015))) / (0.015 – 0.01)^2 * 2』
上記の数式をテンプレート化すれば、A/Bテストごとに数値を入れ替えるだけで再利用できます。サンプル数を事前に明確にしておくことで、計画的にA/Bテストを実行でき、結果に対する信頼性も高まります。
なお、Excelの計算式は近似式であり、より正確なサンプルサイズを求めるには、統計ソフトやオンライン計算ツールの使用も検討してください。
【データ分析担当者向け】R(統計ツール)で精密に計算する
より高い精度でサンプル数を計算したい場合は、統計解析に強いRを使う方法があります。Rの「pwr」パッケージはサンプル数計算のために用意された便利なツールです。Rを使う方法では、まず効果量(h)を『ES.h』関数で求めて、効果量をもとに『pwr.2p.test』関数を使ってサンプル数を計算します。
ベースラインコンバージョン率が1%、目標CVRが1.5%、有意水準0.05、検出力0.80の2群比較(A/Bテスト)のサンプルサイズを計算するには、Rの『pwr』パッケージを使って次のように入力します。
『pwr.2p.test(h = ES.h(p1 = 0.01, p2 = 0.015), sig.level = 0.05, power = 0.80, alternative = “two.sided”)』
上記のコードを実行すると、各比較グループに必要なサンプル数が自動的に表示されます。『ES.h』関数によって2つの比率の効果量(Cohen’s h)を計算し、必要なサンプルサイズを算出しています。Rを使うメリットは、複数のパターンや条件を一度に比較できる柔軟性と、再現性の高さです。
A/Bテストのサンプル数に関する根拠を定量的に示せるため、チーム内での説明や意思決定にも役立ちます。
A/Bテストのサンプル数を計算する際の注意点
A/Bテストのサンプル数を計算する際の注意点は、以下のとおりです。
- ・有意水準と検出力を明確にする
- ・最小の検出可能差を適切に設定する
- ・サンプルサイズ計算は事前に行う
- ・変化率ではなく実数で考える
- ・デバイスや流入元による偏りに注意する
- ・多重比較に注意する
有意水準と検出力を明確にする
A/Bテスト基準をはっきり決めておきましょう。A/Bテストの信頼性を高め、間違った結論を出さないためにも、2つの基準の設定は欠かせません。有意水準と検出力の目標値をあらかじめ決めておくことも大切です。
有意水準とは「本当はA案とB案に効果の差がないのに、間違って差があると判断してしまう確率の上限」のことです。検出力は「本当にA案とB案に効果の差がある場合、効果がある差を見つけ出せる確率」を指します。それぞれの目標値は、A/Bテストに求める精度や確実性により変わります。
有意水準と検出力を事前に明確に設定して、信頼できるA/Bテストの結果につなげましょう。
最小の検出可能差を適切に設定する
A/Bテストでは、どれくらいの差が出たら改善するかの基準になる「最小の検出可能差」の設定が欠かせません。最小の検出可能差を設定する際は、見つけたい差が小さすぎると、検証に多くの参加者が必要になります。一方、見つけたい差が大きすぎると、本当は効果があった小さな改善を見逃す可能性が高まります。
最小の検出可能差を設定する際、以下の要素も考慮しましょう。
- ・明確なビジネス目標
- ・過去のA/Bテストの結果や業界データ
- ・費用対効果
- ・実現可能な参加者数
最小の検出可能差の設定は、現実的で意味のある効果的なA/Bテストの第一歩と言えます。
サンプルサイズ計算は事前に行う
A/Bテストの開始前に、A/Bテストのサンプル数(サンプルサイズ)の計算を済ませましょう。A/Bテストの途中で参加者の数を変えてしまうと、正確な比較対象になりません。事前に必要な人数を計算して、A/Bテストに必要な期間や準備を正確に見積もることが大切です。
A/Bテストの途中で参加者を増やす場合は、参加者の特性変化に注意したうえで行いましょう。適切な統計的手法を用いないと結果の信頼性に影響する可能性があるため、計画的に実施してください。
途中の調整は「p-hacking」と呼ばれ、偶然出た良い結果を本当の効果であると勘違いをする原因となります。事前に基準を決めておくことで、A/Bテストの計画の正確さが維持できます。信頼できる結果を得るため、A/Bテストのサンプル数の事前計算は欠かせません。
変化率ではなく実数で考える
A/Bテストのサンプル数を計算する際は、変化率だけでなく、実際に増えた数の「実数」も考えましょう。もともとの数字が小さい場合、少し数が変わっただけで、変化率が大きく反映されるためです。ウェブサイトに100人訪れた中で、1人が商品を購入すればコンバージョン率は1%です。
A/Bテストを行った結果、購入者数が1人から2人に増加しました。購入者数の相対的な増加率としては100%の改善(2倍)ですが、絶対数では1人増えただけです。同様に、購入率が1%から2%に上がると改善率は100%ですが、実際の増加は1%ポイントに過ぎません。
特に少数のサンプルでは、相対的な改善率が大きく見えても絶対数の変化は小さいことがあります。「コンバージョン数を〇件」「売上を〇円増やす」など、定量的な目標を設定しましょう。A/Bテストの結果を評価する際は、変化率だけでなく、実数の確認も行ってください。
数字の変化を追うことで、本当に意味のある改善点が見つけやすくなります。
デバイスや流入元による偏りに注意する
A/Bテストでは、デバイスや流入元の確認が必要です。デバイスは、パソコンやスマートフォンなどをわけて考えます。流入元は、Google検索やSNS、広告などです。デバイスや流入元によって、ウェブサイトを訪れる人の行動や、最終的な成果地点が異なる場合があります。
デバイスや流入元に偏りがあると、A/Bテストの結果がサイト全体の課題を把握できない恐れがあります。特定のデバイスや流入元のユーザーに偏ったサンプルでは、A/Bテストの検証結果も限定されやすいため注意してください。
偏りを避けるには、A/Bテストの対象になるユーザー全体のデバイス利用比率や、流入元の比率を把握しましょう。A/Bテストに参加するサンプルの構成は、デバイスや流入元の偏りを理解したうえで、全体の比率に近くなるよう調整します。
デバイスや流入元を別に分けてA/Bテストの結果を分析し、それぞれの傾向を確認する方法もおすすめです。特定のグループに偏りが見られる場合は、対象のグループを除いて考えるか、別途A/Bテストを行うことも検討しましょう。
多重比較に注意する
複数のパターンや指標を比べる際は、多重比較と呼ばれる問題に注意しましょう。比較対象が増えると、本当は差がないのに、たまたま差があるように見える可能性が高まります。
ウェブサイトのデザインを検証する場合、A/Bテスト(2つの案の比較)が行われるのが一般的です。しかしA/B/Cテストや多変量テストなど、3つ以上の案(A案、B案、C案など)を比較する手法も用いられることがあります。
» 多変量テストの基礎知識や具体的な実施・分析方法を解説
多重比較は「AとB」「AとC」「BとC」など複数の組み合わせを同時に検証するテストです。検証する際に、偶然による有意差の検出(第一種の過誤)が増加する問題に対処するための統計的手法です。Bonferroni法やTukey法などの多重比較法を用いて、全体の有意水準を調整します。
多重比較による誤った判断を防ぐため、A/Bテストを始める前に、比較の組み合わせを計画しておきましょう。本当に知りたい重要な比較だけに絞り込む対策も有効です。統計的な工夫で、間違いを起こしにくくする調整も考えられます。
複数を比較する場合は、多重比較による偶然による間違いが起こりやすいため、慎重にA/Bテストを進めましょう。
A/Bテストのサンプル数が足りないときの対処法
A/Bテストのサンプル数が少ないと、正確な結果が得られません。A/Bテストのサンプル数が足りないときに使える、以下の対処法を解説します。
- ・テスト対象を絞って検証する
- ・アクティブユーザーに限定する
- ・テスト期間を延ばす
テスト対象を絞って検証する
A/Bテストでサンプル数が少ないときは、テスト対象を絞り込むことで効率的にデータを収集できます。対象を絞り込むと、特定の条件下での効果を詳しく調べることが可能です。同質性の高いグループ内での比較が可能になるため、変化の検出がしやすくなる場合があります。
統計的有意性を得るには、絞り込んだ後も各パターンで十分なサンプル数(一般に400PV以上)を確保することが重要です。A/Bテストの対象を絞る際は、アクセス数の多いページやコンバージョンに直結する要素に限定すると効果が期待できます。
特定のユーザーセグメントに絞る場合は、事前に母集団の分布を分析し、偏りが生じないよう注意が必要です。特定の流入経路からの訪問者に限定する方法も、ユーザー行動の一貫性を高める方法の一つです。
A/Bテストの対象を適切に絞ることで母集団の均質性が高まります。効果量が大きくなれば、限られたサンプル数でもA/Bテストの結果の信頼性を向上させられる可能性があります。ただし、統計的に有意な結果を得るために必要な最低限のサンプルサイズの確保が必要です。
アクティブユーザーに限定する
A/Bテストで十分なサンプル数が集まらない場合は、A/Bテストの参加者をアクティブユーザーに限定するのも方法の一つです。普段からサービスをよく利用する人を対象にすることで、より明確な反応が得られる可能性があります。
しかし、結果が全ユーザー層に一般化できなくなるというトレードオフがあります。A/Bテストのサンプル数不足の根本的解決策としては、効果量の増加や有意水準の調整なども検討すべきです。
デザインや機能の変更に対して敏感なユーザーの反応は、A/Bテストの結果に顕著に現れやすいのが特徴です。テスト結果に大きな影響を与える可能性があります。
活動の少ないユーザーを除外すると、A/Bテストの結果のブレが小さくなります。少ない人数でも信頼できる違いを見つけたい場合に、アクティブユーザーに限定する方法は便利です。アクティブユーザーを判断する基準は、以下のとおりです。
- ・最近のログイン状況
- ・特定機能の利用
アクティブユーザーに絞った検証結果は、活発な一部のユーザーに限定されます。すべてのユーザーの反応ではない点に注意しましょう。
テスト期間を延ばす
サンプル数が足りないと感じたときは、A/Bテストの期間を延ばす対策が有効です。A/Bテストの期間を延長すると、必要な数のデータを集めやすくなります。週の始まりと終わり、平日と休日では、ユーザーの行動パターンが異なる場合があります。
曜日や時間帯によっても行動が変わる場合があるため、違いを考慮しながらA/Bテストの期間を調整しましょう。A/Bテストの期間を設定する際は、目標のサンプル数に達するまで、A/Bテストを継続してください。A/Bテスト期間を伸ばせば、網羅的なデータが集まるため、より信頼できる結果を得やすくなります。
A/Bテストの結果が出るまでに時間がかかり、意思決定が遅れる可能性がある点に注意しましょう。意思決定が遅れると、A/Bテストの期間中に市場の状況が変わったり、競合他社の新しい動きへの対策が難しくなったりします。効果の低いパターンの採用で、本来得られたはずの検証結果を逃すリスクも想定しましょう。
A/Bテストの結果を分析する際のポイント
A/Bテストでは、結果を正しく判定するための基準が必要です。検証結果の分析で使われる、以下の代表的な方法を解説します。
- ・有意差を確認する
- ・p値をもとに判断する
- ・偽陽性と偽陰性を見逃さないようにする
- ・ビジネスKPIにもとづいて評価する
有意差を確認する
A/Bテストの結果を分析する際、統計的な有意差があるかを確認しましょう。有意差とは、A/Bテストの結果が偶然ではなく、施策による効果であると判断できる差のことです。偶然の結果で判断すると、間違った意思決定につながる可能性があります。
有意差とは、統計的検定において観測された差が偶然ではなく、統計的に意味のある差であることを示す概念です。A/Bテストでは、事前に設定した有意水準と、テスト結果から得られるp値を比較して有意差の有無を判断します。
p値が有意水準より小さい場合、帰無仮説を棄却し、観測された差が偶然によるものではないと統計的に判断可能です。p値が有意水準を下回る場合、観測された差は統計的に有意であり、適切な実験設計であれば施策の効果と考えられます。
A/Bテストの結果が逆の場合は、偶然による差を疑いましょう。結果の差の大きさや、信頼区間と呼ばれる範囲を確認することで、読者はより深く理解できます。有意差の確認作業には、統計ツールやウェブサイト上の計算ツールを活用しましょう。
p値をもとに判断する
p値は、A/Bテストの結果が偶然か意味のある差なのかを判断する大切な数字です。p値は、帰無仮説(差がない)が真であると仮定した場合に、観測されたデータまたは極端なデータが得られる確率を示します。
値が小さいほど、観測された差が偶然ではなく統計的に有意である可能性が高いと判断できるため、客観的な判断の助けになります。p値を使用する際は、基準になる確率の有意水準を事前に決めておきましょう。有意水準の設定は、5%(0.05)にするのが一般的です。
計算したp値と有意水準の関係を、以下の数式に当てはめて確認しましょう。
- ・p値<有意水準
- ・p値≧有意水準
p値が有意水準より小さい(p<0.05など)場合、A/Bテストによる結果の差は偶然起こったとは考えにくくなります。p値が有意水準よりも小さいと、統計的に意味を持つ差であると判断可能です。
一方、p値が有意水準以上(p≧0.05など)を示すと、A/Bテストでの結果の差は偶然起こった可能性を含みます。p値が有意水準よりも大きい場合、統計的に意味を持つ差があるとは断定できません。p値をもとに判断することで、A/Bテストの結果の統計的有意性を評価できます。
p値の数字の大きさは、改善の度合いを示すわけではありません。p値は、あくまで判断材料の一つとして考えましょう。
偽陽性と偽陰性を見逃さないようにする
A/Bテストの結果を正しく判断するためには、偽陽性と偽陰性の見間違いに注意しましょう。見間違いにより、A/Bテストの結果から誤った結論を導く恐れがあります。偽陽性とは検査や試験で、実際には陰性(存在しない状態)であるが、陽性(存在する状態)と誤って判定されることです。
例えば、病気がないのに検査で病気があると判定されたり、効果がないのに効果があると誤って判断されたりする場合が該当します。偽陽性を誤って受け入れると、効果のない変更に時間や費用をかける恐れがあります。
一方、偽陰性は、本当は効果があるのに、効果はなかったと見過ごすケースのことです。例えば、ウェブサイトでボタンの色を変えるA/Bテストを行った場合が挙げられます。新しいボタンの色がクリック率を向上させているが、統計的に有意差が検出されず「差はなかった」と誤判断するのが偽陰性です。
偽陰性に気付かないと、ウェブサイトを改善できるチャンスを見逃すことがあります。見間違いを防ぐには、A/Bテストを始める前の準備が欠かせません。十分なサンプル数(テスト参加者)を集め、適切な期間でA/Bテストを行うことで、偽陽性や偽陰性のリスクを減らせます。
A/Bテストの結果が出たときも数字だけを追わず、見間違いの可能性を含め、考える姿勢が必要です。
ビジネスKPIにもとづいて評価する
A/Bテストの結果を評価する際は、統計的な差だけでなく、最終的なビジネス目標への貢献度の見極めが欠かせません。A/Bテストの後で、クリック率などの指標が改善しても、改善点が必ずしもビジネス全体の成果を向上させるとは限りません。
表面的な数値の改善により、実際の売上や利益につながらない場合があるためです。A/Bテストでは、結果がビジネスにおける重要な指標(KPI)の向上に貢献しているかを確認する必要があります。KPIに影響を与える項目は、以下のとおりです。
- ・売上
- ・利益
- ・顧客単価
- ・顧客の生涯価値(LTV)
施策にかかった費用と改善によって得られたビジネス上の利益(ROI)の比較検討も大切です。短期的な指標の変化だけではなく、長期的にビジネスに与える影響も考慮してください。新規顧客やリピーターなど特定の顧客層ごとに、ビジネスKPIの影響を分析しましょう。
AA/Bテストをより深く理解することで、多角的な視点から現在のビジネスを評価できます。
まとめ
A/Bテストで信頼できる結果を得るには、適切なサンプル数の設定が欠かせません。サンプル数が適切でない場合、A/Bテストの結果が偶然か、効果があった施策なのかを正しく判断できないためです。A/Bテストに必要な期間を知るうえでも、サンプル数は重要です。
サンプル数を求める際は、以下の要素を確認・決定しましょう。
- ・有意水準:誤って効果があると判断する確率(通常0.05)
- ・検出力:実際に効果がある場合に検出できる確率(通常0.8)
- ・効果量:検出したい差や変化の大きさ
- ・データの分散:対象となるデータのばらつき
- ・母集団の特性:必要に応じて母集団のサイズや分布
必要な情報を集めた後、エクセルや専用の計算ツールを使ってサンプル数を求めます。サンプル数の計算はA/Bテスト開始前に行い、途中で基準を変更しないなど、注意点を守ることが大切です。サンプル数を集めるのが難しい場合は、テスト対象を絞ったり、テスト期間を延ばしたりする対処を行いましょう。
A/Bテストの結果を分析する際は、数字上の差だけを追わないことが大切です。ビジネスの目標達成に役立つか、他に影響を与える要因なども含めて総合的に判断してください。今回の記事を参考に、A/Bテストに最適なサンプル数を見つけ、ウェブサイトの改善などに活用してください。
-
お問い合わせ
SiTest の導入検討や
他社ツールとの違い・比較について
弊社のプロフェッショナルが
喜んでサポートいたします。 -
コンサルティング
ヒートマップの活用、ABテストの実施や
フォームの改善でお困りの方は、
弊社のプロフェッショナルが
コンサルティングいたします。
今すぐお気軽にご相談ください。
今すぐお気軽に
ご相談ください。
(平日 10:00~19:00)
今すぐお気軽に
ご相談ください。
0120-90-5794
(平日 10:00~19:00)
グラッドキューブは
「ISMS認証」を取得しています。

認証範囲:
インターネットマーケティング支援事業、インターネットASPサービスの提供、コンテンツメディア事業
「ISMS認証」とは、財団法人・日本情報処理開発協会が定めた企業の情報情報セキュリティマネジメントシステムの評価制度です。