השקרים של הסטטיסטיקות – כל מה שלא רואים באנליטיקס

רעשים בסטטיסטיקה

כל מי שמנהל אתר אינטרנט או בלוג, עסוק, לפחות בחלק מהזמן, במספרים. כלומר, בסטטיסטיקות של האתר. החברה שלי, The Shark Lady, מספקת שירותי תחזוקה וניהול לכמה וכמה אתרים ובלוגים של לקוחות פרטיים וחברות, ובחלק מהמקרים זה כולל גם ניתוח הסטטיסטיקות של האתר וביצוע שינויים בהתאם.

אני לא מגדירה את עצמי מומחית SEO בשום אופן, אבל הרבה מאוד שנים של עיסוק באינטרנט ובתוכן מספקות לי הבנה מעמיקה בקידום אתרים, ויכולת לראות קצת מעבר למספרים. למה צריך לראות מעבר למספרים – כי כמו הרבה נתונים סטטיסטיים, גם הם משקרים – ולא מעט. את הפוסט כתבתי בסיועו האדיב של שוקי גלילי, מקדם אתרים ואיש מקצוע מהדרגה הראשונה.

מנהלי אתרים ומנהלי מדיה רבים מתייחסים לנתונים הסטטיסטיים המסופקים על ידי גוגל אנליטיקס ו-Webmaster Tools כתורה מסיני, אולם יש לבחון אותם בעין ביקורתית ולהבין את התמונה המלאה בה אנו צופים, שכן המספרים האלה מציגים לעתים תמונה מעוותת. לא מדובר בקונספירציה זדונית, ברוב המקרים, אלא תולדה של התקדמות הטכנולוגיה ושינויים משמעותיים בהרגלי הגולשים, מה שמקשה על האפשרות לקבל תמונה סטטיסטית נקייה מרעשים.

הנה כמה מההפרעות והרעשים שניתן להיתקל בהם בעת צפייה בנתונים סטטיסטיים באתר אינטרנט:

גיאוגרפיה זה עניין של פרוקסי

באתרים בעברית זה אולי לא קריטי, אולם יש אתרים בינלאומיים שבהם החיתוך הדמוגרפי של הגולשים מהווה חלק משמעותי מניהול האתר. היום, עם התגברות השימוש בפרוקסי וב-TOR (לא זה של ענב גנד גלילי), הנתונים האלה מתחילים להשתבש, שכן המיקום האמיתי של הגולש לא מוצג. וכך, אתר עשוי להציג גולשים רבים מצרפת, בעוד שלמעשה אף צרפתי לא נכנס אליו.

בישראל, ה"פילוח" הגיאוגרפי חסר משמעות, שכן אנליטיקס וכלים סטטיסטיים אחרים מציגים בדרך כלל את מיקום חוות השרתים של ספק האינטרנט. וכן, בגלל זה יש לכם כל כך הרבה גולשים מפתח תקווה וראש העין.

הצפנת מילות חיפוש ומדגם לא מייצג

זה לא דבר חדש, ובכל זאת, הרבה מאוד בעלי אתרים לא מודעים לעניין – גוגל מצפינה את מילות החיפוש של הגולשים המגיעים לאתר שלכם. כלומר, אם בעבר היתה קיימת האפשרות לראות במדויק את מילות החיפוש שהובילו לאתר, ולבצע שינויים בתוכן בהתאם לצורך, הרי שכיום אנו נאלצים להסתפק בכלי אחד – Webmaster Tools של גוגל, שלא מספק מידע בזמן אמת על מילות המפתח, אלא מקבץ אותן בכל מיני צורות סטטיסטיות לא אמינות. בקיצור, גוגל שומרת את המידע החשוב והמעניין לעצמה, ולנו היא זורקת פירורים.

שוקי גלילי מסביר: "כשמסתכלים על נתונים בנפח גדול שנוגעים לתקופה ארוכה, לעתים קרובות גוגל אנליטיקס יציג הודעה כזו":

אנליטיקס מדגם סטטיסטי

"אפשר היה להניח שכשאנליטיקס דוגם נתונים, הוא יעשה את זה בצורה אינטליגנטית ותקפה סטטיסטית. הניסיון מראה שהוא לא, וקל למצוא סתירות ופערים בין נתונים מדו"חות שונים ככל שהם נוגעים לתקופות ארוכות יותר".

גלילי מציין שזה לא נגמר בכך – "על הנתונים החסרים של מילות מפתח אמור היה לפצות דו"ח ה-Search Queries של WMT. זה דו"ח יקר ערך כשלעצמו, שנותן מידע לא רק על חיפושים שהובילו גולשים לאתר (clicks) אלא גם על חיפושים שהופענו עבורם בלי לקבל בסופו של דבר תנועה (אולי כי הופענו במיקום נמוך). אבל הדו"ח הזה מציג בעקביות נתונים שנוגעים רק לחצי או שליש מהתנועה/החיפושים (שימו לב ל"displaying" באפור)".

גוגל וובמסטר טולז

אל תקפצו, זה רק Bounce

"שיעור הנטישה (Bounce rate) הוא נתון שרבים מייחסים לו יותר מדי חשיבות (יש לו חשיבות, אבל לרוב לא כשלעצמו אלא בקומבינציה עם נתונים אחרים). לעתים קרובות יש שיבוש של נתוני הבאונס עבור דפים מסוימים או כל האתר, בגלל שימוש בפיצ'רים שונים. לדוגמא, כשמגדירים שסרטון המוטמע בדף יחל לנגן ברגע שנכנסים אליו זה עלול לגרום לבאונס 0. כשמסיבה כלשהי קוד האנליטיקס מופיע בטעות פעמיים באותו דף, התוצאה היא גם כאן באונס 0", מסביר גלילי.

חוסמי סקריפטים

במלחמה על הפרטיות, אחד הכלים החשובים של הגולשים הוא חוסמי פרסומות וסקריפטים. עם כל הכיף שביכולת לגלוש ללא פרסומות, הרי שכמנהלי אתרים אנו עלולים לסבול מהעניין – חוסמי סקריפטים חוסמים גם את היכולת של אנליטיקס וחבריו לספור את הכניסה של הגולש לאתר ולעקוב אחר ההתנהגות שלו. נכון שמדובר באחוזים בודדים מקרב המשתמשים, אבל באתרים גדולים עם טראפיק גבוה, המספרים האלה עשויים להיות משמעותיים.

גולשים או בוטים?

העובדה שאנליטיקס לא מספק נתונים בזמן אמת, גורמת למנהלי אתרים לפנות לכלים אחרים. למשל, בוורדפרס קיימים מספר תוספים המספקים נתוני טראפיק בזמן אמת, כולל ה-IP והמדינה שממנה מגיע הגולש וכו'. ראשית, התוספים הללו מכבידים על האתר באופן בלתי פרופורציונלי, ומנפחים את מסד הנתונים שלו פי שניים או שלושה, שלא לצורך. שנית, כלים סטטיסטיים כאלה נוטים לספור גם בוטים ו-crawlers – תוכנות וסקריפטים הסורקים את הרשת. "התנועה הפיקטיבית שהם מייצרים יכולה להגיע לאחוזים ניכרים מסך התנועה לאתר", אומר שוקי גלילי.

אולי כדאי רק גוגל?

גם היצמדות לכלים של גוגל בלבד לא תמיד מסייעת. גלילי מציין כי, "כשמשווים את הנתונים שמתקבלים משירותים שונים של גוגל, למשל נתונים ממערכת Adwords או מ-WMT לנתוני אנליטיקס, תמיד יש פערים. ספציפית, במקרה של אדוורדס מול אנליטיקס, גוגל אומרים שפערים של כמה אחוזים הם סבירים – אבל כל מי שניהל יותר מכמה קמפיינים יודע שהפערים עלולים להגיע גם ל-20 ו-30 אחוזים לפעמים. בתמיכה של גוגל יטענו בדרך כלל שיש בעיה טכנית באתר שמפריעה לאיסוף תקין של הנתונים, אבל כבר קרה שיעצו לי לסגור את חשבון האדוורדס הקיים ולפתוח חדש".

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>