אם התעניינת בשרשרת, בטח תרצי גם את העגילים: על בניית "סלי קנייה"

למידת חוקי הקשר שימושית במספר מקרים - אבל גם כאשר חוקי הקשר מתאימים מאוד, כמו בתהליכי קנייה, יש כמה אתגרים לתוצאות טובות

יעקב רימר
ד"ר יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
זהב, עושר, עשירים, עשיר, עשירה, טבעות, תכשיט, תכשיטים
צילום: בלומברג
יעקב רימר
ד"ר יעקב רימר

בפוסטים קודמים הצגתי בקצרה שתי שיטות ללמידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ו-Clustering (אישכול). הפעם אעסוק בשיטת למידה בלתי-מונחית נוספת הנקראת Association Rules Learning ובעברית למידת חוקי הקשר (אסוציאציות). המוטיבציה הבסיסית של השיטה היא למצוא אירועים שבדרך כלל מתרחשים ביחד. למה זה טוב?

יש לכך מספר שימושים, המוכר ביותר מגיע מעולם המכירות. מי שקונה באינטרנט, נתקל כנראה יותר מפעם אחת במשפט "אנשים שקנו את X קנו גם Y". כלומר, האתר מציע לך מוצרים נוספים שעשויים לעניין אותך על סמך המוצר שבחרת. איך הוא עושה את זה? בכל פעם שאנחנו קונים, בחנות אמיתית או וירטואלית, אנחנו ממלאים את הסל במוצרים ומשלמים עליהם בקופה. המוכר יכול להשתמש במידע של תכולת הסלים כדי ללמוד אילו מוצרים נרכשים בדרך כלל יחד. למשל, הרבה אנשים שקונים דיו למדפסת קונים גם נייר למדפסת. לכן כדאי להציע למי שקונה דיו לקנות גם נייר. נשמע הגיוני לא?

הדעה הרווחת היא ששיטת ניתוח זו משמשת לתכנון של סידור המוצרים במרכולים אמיתיים* (חפשו בירה וחתולים). כלומר, כדאי לחנות להציג מוצרים שנרכשים ביחד במדפים סמוכים. זה לא לגמרי מדויק, כי החנות מרוויחה לא מעט מרכישות אימפולסיביות. לכן תמצאו את מוצרי היסוד (כמו לחם או חלב) ממוקמים רחוק מאוד מהקופות (וגם אלו מאלו), כדי שהלקוח יעבור בדרך על פני מוצרים רבים אחרים. זו גם הסיבה מדוע בטריות או ממתקים נמצאים ליד התור בקופות. בחנות וירטואלית השיטה יותר מועילה.

צילום: אילן אסייג

בעקרון ניתן לנסות ללמוד חוקי הקשר בכל מאגר נתונים שמכיל "סלי קניה", או בעגה המקצועית טרנסקציות. לניסיוני, במרבית המקרים יש שיטות טובות יותר. ראשית, חשוב לזכור שלמידה מחוקי הקשר מתעלמת מציר הזמן. כלומר אין חשיבות לסדר הדברים, אלא רק לעובדה שהם קרו יחד בפרק זמן מסוים. למרות שכידוע החיים מתנהלים ברציפות ולא ב"קפיצות" בדידות מקניה לקניה, כמו בתהליך של רכישה בחנות.

אמחיש את הדברים עבור מחקר רפואי. מחקרים שונים מנסים ליישם את למידת חוקי הקשר לטובת מחקר של מחלות קשות. לדוגמה, חוקרים אספו נתונים שונים של חולים בסרטן מסוים, וניסו למצוא תובנות שנובעות מחוקי הקשר. יש עם זה מספר בעיות. ראשית, הנתונים שנאספו היו נכונים לנקודות זמן מלאכותיות מסוימות. להבדיל מתהליך קניה שיש לו זמני התחלה וסיום ברורים, לזמני איסוף הנתונים הרפואיים של החולה אין בהכרח משמעות אמיתית. גם ההצדקה להחלטה השרירותית להתייחס אליהם כאל "סל אחד" לא ברורה. יכול להיות שאם היינו אוספים את אותו הנתון חודש מוקדם או מאוחר יותר, היינו מקבלים ערך אחר. וזה עוד לפני שהתייחסתי ליכולת לאסוף כמות מספקת של נתונים רפואיים איכותיים.

גם כאשר חוקי הקשר מתאימים מאוד, כמו בתהליכי קניה, יש מספר אתגרים לתוצאות טובות. אמחיש זאת באמצעות המושג מתאם (קורלציה), מבלי להיכנס להבחנה המדויקת בין מתאם לבין הקשר. מתאם הוא מדד לרמת הקשר בין שני דברים (או משתנים). למשל, האוניברסיטות מקיימות מבחנים פסיכומטריים כי מחקרים הראו שציון גבוה בבחינה פסיכומטרית מנבא הישגים גבוהים בלימודים האקדמיים. כלומר, קיים מתאם חיובי גבוה בין הציון הפסיכומטרי לממוצע הציונים בתואר ראשון.

שיטות רבות בניתוח נתונים עושות שימוש מוצלח במתאמים. למשל, בעקבות מציאת המתאם הגבוה בין עישון לסרטן ריאות חלחלה התובנה שעישון מזיק מאוד לבריאות. זאת למרות שבתחילת הדרך היו רופאים שהמליצו לעשן כתרופה למחלות שונות. הבעיה מתחילה כאשר מנסים לייחס פרשנויות שגויות למתאם, למשל סיבתיות שגויה. המתעניינים ימצאו על כך מידע רב באינטרנט, אני אסתפק בדוגמה מפורסמת אחת. מסתבר שיש מתאם גבוה בין מכירת גלידות לבין מקרי טביעה. כאשר מכירות הגלידה מזנקות, כך גם מקרי הטביעה. אז אולי כמו עישון, נאסור גם גלידה ובכך נציל נפשות רבות? כל בר דעת מבין שלצערנו בקיץ מתרבות הטביעות והגלידה, שאף היא פופולרית בקיץ, אינה הגורם לכך. אבל במקרים רבים הדברים פחות ברורים וחוקרים פזיזים קופצים למסקנות שגויות.

ואם נחזור לחוקי הקשר, כמו שלא כל הנוצץ זהב, העובדה ששני מוצרים נרכשים פעמים רבות יחד לא בהכרח מעידה על קשר ביניהם. אם למשל מדובר בלחם, אולי רק נדמה לנו שיש קשר בינו למוצר אחר, כי לחם הוא מוצר פופולרי שנרכש במקרים רבים. וגם אם שני מוצרים נרכשו תמיד יחד (בנתונים שלנו), צריך להיות זהירים. אם מדובר בשלושה סלים מתוך אלף, זה לא ממש משמעותי. יש לכל זה מדדים ופתרונות, ופה ושם חוקי הקשר מוצאים דברים מעניינים. אבל לטעמי התמונה הכללית מראה שאם אפשר, מומלץ כאמור לנסות קודם שיטות אחרות.

כתבות מומלצות

בריכות סחף מבטון אקולוגי של חברת אקונקריט הישראלית בניו-יורק

"שיטפון של יזמים": דור חדש מנסה להיכנס לתחום הכי בוער בהיי־טק

מכוניות של טסלה במפעל החברה. מייצרת את המנועים וחלק ניכר מהאלקטרוניקה של המכוניות שלה

המכונית הפרטית עוברת מהפכה שסוחפת את כל התעשייה

קניון ממילא בירושלים. "גידול במכירות של מותגי אופנה מוזלים"

"חיים את הרגע": אוכלים במסעדות, יוצאים לבלות — וטסים לחו"ל

שיעור העובדים שמרגישים שהם בעלי השפעה, ושמקום העבודה שלהם מניע אותם לתרום ולהגיע
להישגים, ירד באופן משמעותי השנה

"הבטיחו לקדם אותי ואז הביאו מישהו מבחוץ. אם זה יקרה שוב – אתפטר"

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

נתי סיידוף, בעל השליטה בשיכון ובינוי. רכש את החברה בהנחה של 13% על מחיר הבורסה של המניה

נטישת מנהלים, חוב תופח — ותשואת חסר עמוקה: מה קורה בשיכון ובינוי?

צעירים בטיילת בתל אביב. בקשה מהעובדים להגיע למשרד נהפכת להתקפה פרסונלית עליהם

"הפסקתי להעסיק צעירים. הם מפונקים ולא ראו אותי, אלא רק רצו לקחת ממני"