עוצמה סטטיסטית עבור מבחני A/B
עוצמה היא ההסתברות שהבדיקה שלך תזהה השפעה אמיתית בגודל שמעניין אותך. בפועל, זוהי אחת הדרכים הברורות ביותר לחשוב על הסבירות שהניסוי שלך יפספס משהו חשוב.
מה המשמעות של כוח
אם העוצמה היא 80%, הבדיקה שלך נועדה לזהות את האפקט המטרה כ-80% מהמקרים, אם אפקט זה אכן קיים. עוצמה נמוכה יותר פירושה סיכוי גבוה יותר לפספס הבדלים אמיתיים.
זה הופך את הכוח למסגרת תכנון מרכזית ולא לפרט מתקדם.
מדוע עוצמה גבוהה יותר דורשת יותר דגימה
עוצמה רבה יותר פירושה שרוצים רגישות גדולה יותר, מה שבדרך כלל דורש יותר תצפיות. פשרה זו הופכת לבלתי נראית במיוחד כאשר ההשפעה הצפויה קטנה.
צוותים רבים משתמשים ב-80% כסטנדרט נפוץ משום שהוא מאזן בין קפדנות למעשיות.
כיצד להשתמש בו בתכנון
עוצמה הגיונית רק עם ההשפעה המינימלית הניתנת לגילוי. בדיקה יכולה להיות בעלת עוצמה גבוהה כדי לזהות השפעה גדולה ופחות עוצמה כדי לזהות השפעה קטנה.
זו הסיבה שאין לדון בעוצמה ללא גודל האפקט המטרה.
כיצד כוח משפיע על החלטות בניסויים אמיתיים
כוח חשוב משום שמבחן עם עוצמה נמוכה יכול להסתיים ללא תוצאה משמעותית, גם כאשר קיים שינוי משמעותי באמת. זה מוביל צוותים לעתים קרובות למסקנה שגויה שהרעיון לא עבד.
חשיבה על עוצמה גם עוזרת לקבוע ציפיות עם בעלי העניין. בדיקה עם תעבורה מוגבלת עדיין עשויה להיות שווה ביצוע, אך כולם צריכים להבין איזה גודל של השפעה היא יכולה ולא יכולה לזהות באופן מהימן.
- השתמשו בכוח כדי לשפוט את הסיכון להחמצת השפעה אמיתית
- לדון בכוח יחד עם MDE, לעולם לא בפני עצמו
- הסבר את הפשרה בין רגישות לזמן ריצה
- הימנעו מלהתייחס לתוצאות לא מובהקות כהוכחה להיעדר הבדל