Lara Swanson . פורסם במקור ב A List Apart
מידע סטטיסטי יכול להיות כלי עזר בעל ערך רב בתהליך פיתוח של אתר אינטרנט. מבחני A/B הם דרך פשוטה יחסית למדידת האפקט של משתנים שונים כגון: עיצוב, תוכן או פונקציונליות על תנועת המבקרים באתר. במאמר זה נסקור את היכולות והמגבלות של מבחני A/B.
מה זה מבחן A/B?
במבחני A/B אנחנו משווים שתי גרסאות של עמוד אינטרנט שיצרנו בכדי לזהות איזו מהגרסאות מביאה לתוצאות טובות יותר עבור מטרה שהגדרנו מראש. במהלך המבחן, גולשים המגיעים לאתר רואים אחת משתי הגרסאות הנבדקות כאשר עבור כל גולש אנו יכולים למדוד את יחס ההמרה לפעולה ספציפית. מבחני A/B יכולים לעזור בקבלת החלטה על כותרת אפקטיבית לעמוד, על טקסט הקורא לפעולה או על תוכן ויזואלי כמו שימוש בצבע מסוים. מבחנים אלו יכולים גם לבדוק אפקטיביות של פונקציונליות מסוימת, לדוגמה, מתי וכיצד הודעות שגיאה מופיעות בהקשר של פעולות מסוימות.
מבחני A/B יכולים לעזור גם בהטמעה של שינויי עיצוב גדולים באתר. בעזרת ביצוע של מבחנים שונים על אלמנטים בדידים, ניתן לבחון שלבים שונים של השינוי. בחינה כזאת מונעת אפשרות ששינוי דרסטי בעיצוב האתר יבהיל את המבקרים הקבועים, או יגרור ירידה מהותית ביחס המרה באתר.
למרות שמבחני A/B נערכים על שינויים בדידים, לתוצאות של מבחנים אלו יכולות להיות השלכות על עיצוב האתר במלואו. ברגע שזיהינו דפוס עיצוב שעובד בצורה טובה יותר מדפוס אחר, אנו יכולים ליישם אותו עבור כל האתר. באופן דומה, בחינת האפקטיביות של תוכן מסוים תשליך על האופן בו אנו יוצרים תוכן חדש.
תוצאות של מבחני A/B מוצגות כמידע כמותי. מידע זה מאפשר שפה משותפת בדיון בין אנשי מקצוע מתחומים שונים. בניגוד לאלמנט עיצובי כזה או אחר שאינו ניתן לשיפוט בקלות, ועל-ידי כל אחד, מידע כמותי מאפשר השוואה ברורה בין אופציות שונות וקבלת החלטות בהתאם. קבלת מידע אמין על שינויים, לפני שמחילים אותם בפועל באתר היא רכיב בעל ערך עבור מקבלי ההחלטות.
מה אתם רוצים לבדוק?
דבר ראשון יש להחליט מהו הרכיב אותו תרצו למדוד. ההבדל בין גרסה א' לגרסה ב' צריך להיות מובחן. שינוי קטן בצבע, שינוי סדר הצגת תמונות בגלריה או שינוי מזערי בתפקוד של כפתור לא יספקו תוצאות בעלות ערך. ההבדל בין הגרסאות צריך להיות כזה שישפיע על פעולת המשתמשים באתר, והוא צריך להוביל להבנה של עקרון כללי שישמש אתכם בקבלת החלטות עיצוביות נוספות. מבחני A/B טובים יכולים להשוות:
- שורות נושא בעלות ניסוח שונה עבור אי-מיילים שיווקיים.
- הצעה של קופון או מבצע מסוים בדרכים שונות.
- רישום לאתר כפעולת חובה או רשות.
האתר Which Test Won מציע דוגמאות למבחני A/B הכוללות תוצאות של מבחנים וניתוח של התוצאות. מבחני A/B כוללים בדיקה על משתנה אחד בכל פעם. אם אתם בודקים יותר ממשתנה אחד בין גרסאות, יהיה זה בלתי אפשרי להחליט איזה מבין השינויים שערכתם השפיע על התוצאות.
בנוסף, עליכם להחליט מהו המדד להשוואת הגרסאות השונות. המדד הנפוץ ביותר הוא יחס ההמרה. המדד יכול להשתנות כתלות במדיום בו הגרסאות אמורות לפעול (אתר אינטרנט, אימייל) או בפלטפורמה (תוכן סטטי או דינמי). באתר Which Test Won תוכלו למצוא סט של כלים שיעזרו לכם בבניה של מבחני A/B. ניתן כמובן גם לבנות מבחני A/B שיפעלו על השרת שלכם. במקרה זה וודאו שיש לכם שליטה על:
- מספר המשתמשים הרואים כל גרסה.
- מהות ההבדל בין הגרסאות.
- האופן בו אתם מודדים את האפקט של כל מבחן.
מעקב אחר תוצאות המבחן עם גוגל אנליטיקס יכול לעזור אם אתם משתמשים בפלטפורמה שלכם לעריכת המבחן. גוגל אנליטיקס מאפשר לערוך משתנים שונים אשר יעזרו לכם לעקוב אחר המשתמשים הנחשפים לכל אחת מהגרסאות. מעקב זה יכול לספק מידע החורג מיחס ההמרה בלבד, לדוגמה, מידע בדבר משתמשים במדינות שונות וההעדפות שלהם בהשוואה למשתמש הממוצע.
בכדי לערוך משתנים שונים בגוגל אנליטיקס יש להוסיף את קוד ה-Javascript הבא לעמוד:
_gaq.push(['_setCustomVar',1,'testname','testversion',2]);
מידע נוסף על יצירת משתנים ייחודיים ניתן למצוא בגוגל. החלקים בקוד למעלה שצריך לשנות הם testname המשמש כמזהה עבור המבחן אותו אתם מריצים, ו testversion המזהה את הגרסה אותה אתם בודקים. כדאי להשתמש בשמות אינטואיטיביים לדוגמה, במבחן לבדיקה של עמוד בית עם טקסט קצר מול ארוך, אפשר לכתוב בגרסה א':
_gaq.push(['_setCustomVar',1,'Homepage Content Test','Short',2]);
ובגרסה ב':
_gaq.push(['_setCustomVar',1,'Homepage Content Test','Long',2]);
גוגל אנליטיקס מאפשר איסוף רחב של נתונים, לדוגמה, הזמן שמשתמשים שוהים באתר, מספר החשבונות שנוצרו ועוד. בכדי לראות את המשתנים האלו בגוגל אנליטיקס לאחר תחילת איסוף המידע יש ללכת ל Visitors > Custom Variables ולבחור את שם המבחן שקבעתם קודם לכן.
מדידת התוצאות
לאחר זמן מה (התלוי בתנועת הגולשים לאתר) בדקו את תוצאות המבחן שערכתם והשוו את יחס ההמרה בכל גרסה של העמודים הנבחנים. בכדי שניתן יהיה להסיק מסקנות רלוונטיות ממבחן A/B יש צורך להגיע למובהקות סטטיסטית. באינטרנט קיימים מחשבונים שונים המיועדים לבדוק האם המבחן שאתם מבצעים הגיע לרף מובהקות סטטיסטית. מובהקות מחושבת לפי המספר הכולל של מבקרים באתר אשר לקחו חלק במבחן ולפי יחס ההמרה עבור כל מבחן. תנועה מועטת באתר או מספר קטן של פעולות רלוונטיות למבחן, יחייבו הארכת משך המבחן בכדי לאפשר מובהקות בתוצאות. Usereffect.com הוא כלי עזר להערכת מספר הנבדקים הנדרש בכדי להגיע למובהקות סטטיסטית מקובלת של 95%.
ככל שמספר המבקרים המשתתפים במבחן גדל כך המהירות בה תוכלו לקבל תוצאות גדלה. חשוב לבצע מבחני A/B על אזורים באתר עם תנועה רבה בכדי להגיע למובהקות סטטיסטית במהירות האפשרית. הכרזה על סיום מבחן בטרם עת יכולה להוביל להסקת מסקנות שגויה.
דוגמאות למבחני A/B
בתהליך פיתוח של אתר מסחר אלקטרוני לשירותים מבוססי דומיין רצינו ליצור מבחן שיבדוק האם הדגשה של שם הדומיין מגדילה את המכירות באתר. מצד אחד, ברשימה ארוכה של מוצרים, סריקה של טקסט מודגש אינה בהכרח נוחה. מצד שני, הדגשה של טקסט יכולה לעזור במציאת המוצר הרלוונטי. בגרסה א' של המבחן השמות הופיעו באופן מודגש
service name, yourdomainname.com
ובגרסה ב' השמות נראו כך:
service name, yourdomainname.com
לאחר שערכנו את המבחן והגענו למובהקות סטטיסטית של 95% קיבלנו את התוצאות הבאות:
E-commerce Conversion Rate | Per Visit Value | |
Version A | 26.87% | $11.28 |
Version B | 23.26% | $10.62 |
גרסה א' היתה המנצחת הברורה, והמבחן עזר לנו להבין שככל הנראה המשתמשים סורקים אחר שם הדומיין שלהם ברשימת המוצרים המוצעים להם.
במבחן נוסף שערכנו, השווינו בין גרסאות אשר כללו טקסט בניסוח שונה.
גרסה א' כללה טקסט כזה:
" Don’t miss out on becoming a VIP user. Sign up now."
וגרסה ב' כללה טקסט יותר אגרסיבי:
"Don’t be an idiot; become a VIP!"
המדד שהנחה אותנו הפעם היה שיעורי הנטישה של משתמשים. כאשר ראינו את התוצאות, הבחנו כי שיעורי הנטישה היו שונים באופן מהותי בשתי הגרסאות:
Bounce Rate | |
Version A | 0.05% |
Version B | 0.13% |
באופן טבעי, רצינו להיות זהירים עם טקסט אגרסיבי בדף הבית באתר, והמבחן שבצענו הוכיח לנו שטקסט אגרסיבי מדי עלול להרתיע משתמשים מלהמשיך ולהשתמש באתר. במקרה זה, רצינו להמשיך ולחקור את התוצאות שקיבלנו. בסיס המשתמשים שלנו במבחן זה היה הטרוגני במידה כזאת שיכולנו לפלח את התוצאות לפי מדינה בעזרת גוגל אנליטיקס.
Version A Bounce Rate | Version B Bounce Rate | |
United States | 13.20% | 16.50% |
Non-US | 15.64% | 16.01% |
גרסה ב' הובילה לתוצאות עקביות בנטישת משתמשים ללא תלות במיקום הגיאוגרפי ממנו הגיעו, עובדה אשר ביססה את ההחלטה שלנו לעשות שימוש בגרסה א'.
בנוסף למבחני תוכן ועיצוב, ניתן לערוך גם מבחנים על פונקציונליות של אתר. באחד הפרויקטים היינו צריכים לעצב כפתור המוסיף מוצר לעגלת הקניות. בשתי הגרסאות של המבחן שערכנו, השתמשנו באותו כפתור עם אותו כיתוב ואותו עיצוב. ההבדל היחידי היה שבגרסה א' הכפתור הוסיף את המוצר עם המחיר לשנה אחת, בעוד בגרסה ב' לחיצה על הכפתור הוסיפה את המוצר לעגלת הקניות עם ברירת מחדל של שנתיים.
המטרה במבחן זה היתה לבדוק את יחס ההמרה ואת הערך הממוצע של הזמנה בין הגרסאות השונות. לא היינו בטוחים האם משתמשים שקיבלו את גרסה ב', יורידו את מספר השנים בעגלת הקניות חזרה לאחד או האם ברגע שיראו מחיר גבוה יותר מהמחיר שציפו לו, ינטשו את תהליך הרכישה לחלוטין. קיווינו שנוכל לראות עליה בהכנסות עם שימוש בגרסה ב' אבל היה עלינו לבחון זאת על קהל משתמשים רחב דיו בכדי לקבל החלטה. תוצאות המבחן גילו לנו את התמונה הבאה:
Average Order Value | E-commerce Conversion Rate | |
Version A | $17.13 | 8.33% |
Version B | $18.61 | 9.60% |
גרסה ב' היתה המנצחת הברורה במבחן שלנו. כעת יכולנו להשתמש באינפורמציה הזאת בכדי לעצב תהליכי קניה נוספים באתר.
מסיחים שונים
לעתים המידע המתקבל ממבחני A/B אינו ברור. לאחרונה ניהלנו מבחן על דף הבית שלנו בכדי לנסות ולהבין איזה תוכן עובד בצורה טובה יותר. אני הייתי בטוחה שגרסה אחת תגבר על האחרת בצורה משמעותית, אך שתי הגרסאות הביאו ליחס המרה דומה מאוד. גם מדדים נוספים כגון מספר עמודים לביקור וערך ממוצע של הזמנה נשארו קרובים. לאחר שהרצנו את המבחן במשך שבועות רבים, הבנו, שככל הנראה לא נוכל לקבל תשובה מובהקת לשאלה איזו גרסה היא מוצלחת יותר, לכן סיימנו את המבחן ועברנו למבחן הבא.
זכרו לא להיתפס למבחני A/B. לעתים לא תראו הבדל משמעותי בתוצאות בין גרסאות שונות. תנו למבחנים שלכם מספיק זמן בכדי לוודא שמיציתם את המבחן (אני נותנת למבחנים לרוץ בדרך כלל 3 שבועות לפחות לפני שאני מסתכלת בנתונים). אם אתם חושבים שהמבחן שבניתם אינו מוצלח, סיימו אותו ובנו אחד אחר במקומו. לאחר קבלת תוצאות ניטרליות במבחן A/B, תוכלו לבחור בגרסה אשר ברצונכם להמשיך איתה. אל תצפו לקבל תמיד תוצאות מובהקות במבחן זה.
וטיפ אחד אחרון. ערכו רשימה שוטפת של דברים שהייתם רוצים לבדוק. בדיקה שוטפת של אלמנטים שונים תורמת לידע הכללי שלכם ולהבנה של הדרכים לעצב אתר בצורה טובה יותר. בנוסף, שימוש ב"רשימת המתנה" למבחני A/B יכולה לעזור לכם בדיונים הנוגעים להחלטות עיצוביות. "אני אוסיף את זה לרשימת המבחנים" הוא משפט שאני משתמשת בו הרבה אל מול מקבלי ההחלטות.
מאמר מעניין ביותר
לא הכרתי את האפשרות הזו בגוגל אנליטיקטס
שתי (שני?) הערות
1. שגיאה קטנה בנוגע להכנסת הקוד של גוגל – את השינוי צריך להוסיף לקוד הגאווה סקריפט ולא הגאווה (יש כבר מספיק בלבול בנוגע לזה ואין צורך להוסיף)
2. מידע בטבלאות : מספרים מיושרים לימין וטקטס לשמאל – קונבנציה מקובלת ואם בממשקים עסקינן…
בכל אופן העלת נקודות מענייות למדי ועל זה תודה
עוד פוסט ממצה באותו נושא:
http://webdesignledger.com/tips/the-science-behind-ab-testing
http://www.usaura.com
כלי און ליין שמאפשר לעשות בדיקות שמישות: כולל A/B, 'לחיצות' ו'שאלות פתוחות', הבדיקות נעשות על משתשמשים רנדומליים (גם לעשות את הבדיקות זה נחמד), לא בטוח עם יש אפשרות להחליט מי יעשה את הטסטים
אייל תודה על ההערות. קוד ה Javascript תוקן.
מיכל ואיילת תודה על הקישורים.
כתוב בצורה מובנת ורהוטה. כמובן שזה עזר לי מאד. תודה רבה..
I love these artlices. How many words can a wordsmith smith?