القوة الإحصائية لاختبارات A/B
القوة الإحصائية هي احتمال أن يكشف اختبارك عن تأثير حقيقي بالحجم الذي يهمك. عمليًا، هي إحدى أوضح الطرق لفهم مدى احتمال أن تغفل تجربتك عن شيء مهم.
ما معنى القوة؟
إذا كانت قوة الاختبار 80%، فإن اختبارك مصمم للكشف عن التأثير المستهدف في حوالي 80% من الحالات إذا كان هذا التأثير موجودًا بالفعل. انخفاض قوة الاختبار يعني زيادة احتمالية عدم رصد الفروق الحقيقية.
وهذا يجعل الطاقة عنصراً أساسياً في عملية التخطيط بدلاً من كونها تفصيلاً متقدماً.
لماذا تتطلب القدرة العالية عدد عينات أكبر؟
زيادة القدرة تعني الحاجة إلى حساسية أكبر، وهو ما يتطلب عادةً المزيد من الملاحظات. وتبرز هذه المقايضة بشكل خاص عندما يكون التأثير المتوقع ضئيلاً.
تستخدم العديد من الفرق نسبة 80% كمعيار مشترك لأنها توازن بين الدقة والواقعية.
كيفية استخدامه في التخطيط
لا يكون للقوة معنى إلا إذا اقترنت بأقل تأثير قابل للكشف. قد يكون الاختبار ذا قوة عالية للكشف عن تأثير كبير، وقوة منخفضة للكشف عن تأثير صغير.
ولهذا السبب لا ينبغي مناقشة القوة مطلقاً دون تحديد حجم التأثير المستهدف.
كيف تؤثر السلطة على قرارات التجارب الحقيقية
تُعدّ القدرة الإحصائية مهمة لأن الاختبار غير الكافي قد ينتهي دون نتيجة ذات دلالة حتى وإن كان هناك تغيير جوهري بالفعل. وهذا غالباً ما يدفع الفرق إلى استنتاج خاطئ بأن الفكرة لم تنجح.
يساعد التفكير في مسألة القوة أيضًا في تحديد التوقعات مع أصحاب المصلحة. قد يكون إجراء اختبار بحركة مرور محدودة أمرًا مجديًا، ولكن ينبغي على الجميع فهم حجم التأثير الذي يمكن لهذا الاختبار رصده بدقة، وما لا يمكنه رصده.
- استخدم السلطة لتقييم خطر إغفال تأثير حقيقي
- ناقشوا موضوع القوة مع MDE، وليس بمعزل عنها.
- اشرح المفاضلة بين الحساسية ووقت التشغيل
- تجنب اعتبار النتائج غير المهمة دليلاً على عدم وجود فرق