קונספט A/B

עוצמה סטטיסטית עבור מבחני A/B

עוצמה היא ההסתברות שהבדיקה שלך תזהה השפעה אמיתית בגודל שמעניין אותך. בפועל, זוהי אחת הדרכים הברורות ביותר לחשוב על הסבירות שהניסוי שלך יפספס משהו חשוב.

מה המשמעות של כוח

אם העוצמה היא 80%, הבדיקה שלך נועדה לזהות את האפקט המטרה כ-80% מהמקרים, אם אפקט זה אכן קיים. עוצמה נמוכה יותר פירושה סיכוי גבוה יותר לפספס הבדלים אמיתיים.

זה הופך את הכוח למסגרת תכנון מרכזית ולא לפרט מתקדם.

מדוע עוצמה גבוהה יותר דורשת יותר דגימה

עוצמה רבה יותר פירושה שרוצים רגישות גדולה יותר, מה שבדרך כלל דורש יותר תצפיות. פשרה זו הופכת לבלתי נראית במיוחד כאשר ההשפעה הצפויה קטנה.

צוותים רבים משתמשים ב-80% כסטנדרט נפוץ משום שהוא מאזן בין קפדנות למעשיות.

כיצד להשתמש בו בתכנון

עוצמה הגיונית רק עם ההשפעה המינימלית הניתנת לגילוי. בדיקה יכולה להיות בעלת עוצמה גבוהה כדי לזהות השפעה גדולה ופחות עוצמה כדי לזהות השפעה קטנה.

זו הסיבה שאין לדון בעוצמה ללא גודל האפקט המטרה.

כיצד כוח משפיע על החלטות בניסויים אמיתיים

כוח חשוב משום שמבחן עם עוצמה נמוכה יכול להסתיים ללא תוצאה משמעותית, גם כאשר קיים שינוי משמעותי באמת. זה מוביל צוותים לעתים קרובות למסקנה שגויה שהרעיון לא עבד.

חשיבה על עוצמה גם עוזרת לקבוע ציפיות עם בעלי העניין. בדיקה עם תעבורה מוגבלת עדיין עשויה להיות שווה ביצוע, אך כולם צריכים להבין איזה גודל של השפעה היא יכולה ולא יכולה לזהות באופן מהימן.

  • השתמשו בכוח כדי לשפוט את הסיכון להחמצת השפעה אמיתית
  • לדון בכוח יחד עם MDE, לעולם לא בפני עצמו
  • הסבר את הפשרה בין רגישות לזמן ריצה
  • הימנעו מלהתייחס לתוצאות לא מובהקות כהוכחה להיעדר הבדל

עמודים קשורים עבור עוצמה סטטיסטית עבור מבחני A/B

שאלות נפוצות

מה אלמד בדף הזה?
עוצמה היא ההסתברות שהבדיקה שלך תזהה השפעה אמיתית בגודל שמעניין אותך. בפועל, זוהי אחת הדרכים הברורות ביותר לחשוב על הסבירות שהניסוי שלך יפספס משהו חשוב.
למי מיועד מדריך בדיקות ה-A/B הזה?
המדריך הזה מיועד לצוותי מוצר, משווקי צמיחה, אנליסטים ולכל מי שמתכנן ניסויים ורוצה לקבל החלטות טובות יותר לגבי גודל אפקט, תנועה ותכנון הבדיקה.
מה כדאי לעשות אחרי שקוראים את הדף הזה?
השתמשו בהסבר כאן כדי לבחור הנחות מציאותיות, ואז עברו למחשבון או לעמודים הקשורים כדי להעריך את התנועה שהניסוי שלכם דורש.
למה קבוצות רבות משתמשות ב-80% אנרגיה?
מכיוון שזהו איזון מעשי בין רגישות לזמן ריצה. עוצמה גבוהה יותר מפחיתה את הסיכוי להחמצת אפקט אמיתי, אך היא גם מגדילה את התעבורה הדרושה להפעלת הבדיקה כראוי.
האם בדיקה בהספק נמוך עדיין יכולה להיות שימושית?
לפעמים, אבל רק אם הצוות מבין את מגבלותיו. מבחן בעל עוצמה נמוכה נוטה יותר לפספס השפעות אמיתיות, ולכן יש לפרש תוצאה לא מובהקת בזהירות יתרה.