مفهوم أ/ب

القوة الإحصائية لاختبارات A/B

القوة الإحصائية هي احتمال أن يكشف اختبارك عن تأثير حقيقي بالحجم الذي يهمك. عمليًا، هي إحدى أوضح الطرق لفهم مدى احتمال أن تغفل تجربتك عن شيء مهم.

ما معنى القوة؟

إذا كانت قوة الاختبار 80%، فإن اختبارك مصمم للكشف عن التأثير المستهدف في حوالي 80% من الحالات إذا كان هذا التأثير موجودًا بالفعل. انخفاض قوة الاختبار يعني زيادة احتمالية عدم رصد الفروق الحقيقية.

وهذا يجعل الطاقة عنصراً أساسياً في عملية التخطيط بدلاً من كونها تفصيلاً متقدماً.

لماذا تتطلب القدرة العالية عدد عينات أكبر؟

زيادة القدرة تعني الحاجة إلى حساسية أكبر، وهو ما يتطلب عادةً المزيد من الملاحظات. وتبرز هذه المقايضة بشكل خاص عندما يكون التأثير المتوقع ضئيلاً.

تستخدم العديد من الفرق نسبة 80% كمعيار مشترك لأنها توازن بين الدقة والواقعية.

كيفية استخدامه في التخطيط

لا يكون للقوة معنى إلا إذا اقترنت بأقل تأثير قابل للكشف. قد يكون الاختبار ذا قوة عالية للكشف عن تأثير كبير، وقوة منخفضة للكشف عن تأثير صغير.

ولهذا السبب لا ينبغي مناقشة القوة مطلقاً دون تحديد حجم التأثير المستهدف.

كيف تؤثر السلطة على قرارات التجارب الحقيقية

تُعدّ القدرة الإحصائية مهمة لأن الاختبار غير الكافي قد ينتهي دون نتيجة ذات دلالة حتى وإن كان هناك تغيير جوهري بالفعل. وهذا غالباً ما يدفع الفرق إلى استنتاج خاطئ بأن الفكرة لم تنجح.

يساعد التفكير في مسألة القوة أيضًا في تحديد التوقعات مع أصحاب المصلحة. قد يكون إجراء اختبار بحركة مرور محدودة أمرًا مجديًا، ولكن ينبغي على الجميع فهم حجم التأثير الذي يمكن لهذا الاختبار رصده بدقة، وما لا يمكنه رصده.

  • استخدم السلطة لتقييم خطر إغفال تأثير حقيقي
  • ناقشوا موضوع القوة مع MDE، وليس بمعزل عنها.
  • اشرح المفاضلة بين الحساسية ووقت التشغيل
  • تجنب اعتبار النتائج غير المهمة دليلاً على عدم وجود فرق

صفحات ذات صلة لـ القوة الإحصائية لاختبارات A/B

الأسئلة الشائعة

ماذا سأتعلم في هذه الصفحة؟
القوة الإحصائية هي احتمال أن يكشف اختبارك عن تأثير حقيقي بالحجم الذي يهمك. عمليًا، هي إحدى أوضح الطرق لفهم مدى احتمال أن تغفل تجربتك عن شيء مهم.
لمن هذا الدليل الخاص باختبارات A/B؟
هذا الدليل مخصص لفرق المنتجات ومسوقي النمو والمحللين وكل من يخطط لتجارب ويريد اتخاذ قرارات أفضل بشأن حجم التأثير والزيارات وتصميم الاختبارات.
ماذا ينبغي أن أفعل بعد قراءة هذه الصفحة؟
استخدم الشرح هنا لاختيار افتراضات واقعية، ثم انتقل إلى الحاسبة أو الصفحات ذات الصلة لتقدير حجم الزيارات الذي تحتاجه تجربتك.
لماذا تستخدم العديد من الفرق 80% من قوتها؟
لأنه يمثل توازناً عملياً بين الحساسية ووقت التشغيل. فالطاقة العالية تقلل من احتمالية تفويت تأثير حقيقي، ولكنها تزيد أيضاً من حجم البيانات اللازمة لتشغيل الاختبار بشكل صحيح.
هل يمكن أن يكون اختبار الطاقة المنخفضة مفيدًا؟
أحيانًا، ولكن فقط إذا أدرك الفريق حدوده. من المرجح أن يغفل الاختبار ذو القدرة المنخفضة عن التأثيرات الحقيقية، لذا ينبغي تفسير النتيجة غير الدالة إحصائيًا بحذر شديد.