אם התעניינת בשרשרת, בטח תרצי גם את העגילים: על בניית "סלי קנייה"

למידת חוקי הקשר שימושית במספר מקרים - אבל גם כאשר חוקי הקשר מתאימים מאוד, כמו בתהליכי קנייה, יש כמה אתגרים לתוצאות טובות

יעקב רימר
ד"ר יעקב רימר
זהב, עושר, עשירים, עשיר, עשירה, טבעות, תכשיט, תכשיטים
צילום: בלומברג
יעקב רימר
ד"ר יעקב רימר

בפוסטים קודמים הצגתי בקצרה שתי שיטות ללמידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ו-Clustering (אישכול). הפעם אעסוק בשיטת למידה בלתי-מונחית נוספת הנקראת Association Rules Learning ובעברית למידת חוקי הקשר (אסוציאציות). המוטיבציה הבסיסית של השיטה היא למצוא אירועים שבדרך כלל מתרחשים ביחד. למה זה טוב?

יש לכך מספר שימושים, המוכר ביותר מגיע מעולם המכירות. מי שקונה באינטרנט, נתקל כנראה יותר מפעם אחת במשפט "אנשים שקנו את X קנו גם Y". כלומר, האתר מציע לך מוצרים נוספים שעשויים לעניין אותך על סמך המוצר שבחרת. איך הוא עושה את זה? בכל פעם שאנחנו קונים, בחנות אמיתית או וירטואלית, אנחנו ממלאים את הסל במוצרים ומשלמים עליהם בקופה. המוכר יכול להשתמש במידע של תכולת הסלים כדי ללמוד אילו מוצרים נרכשים בדרך כלל יחד. למשל, הרבה אנשים שקונים דיו למדפסת קונים גם נייר למדפסת. לכן כדאי להציע למי שקונה דיו לקנות גם נייר. נשמע הגיוני לא?

הדעה הרווחת היא ששיטת ניתוח זו משמשת לתכנון של סידור המוצרים במרכולים אמיתיים* (חפשו בירה וחתולים). כלומר, כדאי לחנות להציג מוצרים שנרכשים ביחד במדפים סמוכים. זה לא לגמרי מדויק, כי החנות מרוויחה לא מעט מרכישות אימפולסיביות. לכן תמצאו את מוצרי היסוד (כמו לחם או חלב) ממוקמים רחוק מאוד מהקופות (וגם אלו מאלו), כדי שהלקוח יעבור בדרך על פני מוצרים רבים אחרים. זו גם הסיבה מדוע בטריות או ממתקים נמצאים ליד התור בקופות. בחנות וירטואלית השיטה יותר מועילה.

צילום: אילן אסייג

בעקרון ניתן לנסות ללמוד חוקי הקשר בכל מאגר נתונים שמכיל "סלי קניה", או בעגה המקצועית טרנסקציות. לניסיוני, במרבית המקרים יש שיטות טובות יותר. ראשית, חשוב לזכור שלמידה מחוקי הקשר מתעלמת מציר הזמן. כלומר אין חשיבות לסדר הדברים, אלא רק לעובדה שהם קרו יחד בפרק זמן מסוים. למרות שכידוע החיים מתנהלים ברציפות ולא ב"קפיצות" בדידות מקניה לקניה, כמו בתהליך של רכישה בחנות.

אמחיש את הדברים עבור מחקר רפואי. מחקרים שונים מנסים ליישם את למידת חוקי הקשר לטובת מחקר של מחלות קשות. לדוגמה, חוקרים אספו נתונים שונים של חולים בסרטן מסוים, וניסו למצוא תובנות שנובעות מחוקי הקשר. יש עם זה מספר בעיות. ראשית, הנתונים שנאספו היו נכונים לנקודות זמן מלאכותיות מסוימות. להבדיל מתהליך קניה שיש לו זמני התחלה וסיום ברורים, לזמני איסוף הנתונים הרפואיים של החולה אין בהכרח משמעות אמיתית. גם ההצדקה להחלטה השרירותית להתייחס אליהם כאל "סל אחד" לא ברורה. יכול להיות שאם היינו אוספים את אותו הנתון חודש מוקדם או מאוחר יותר, היינו מקבלים ערך אחר. וזה עוד לפני שהתייחסתי ליכולת לאסוף כמות מספקת של נתונים רפואיים איכותיים.

גם כאשר חוקי הקשר מתאימים מאוד, כמו בתהליכי קניה, יש מספר אתגרים לתוצאות טובות. אמחיש זאת באמצעות המושג מתאם (קורלציה), מבלי להיכנס להבחנה המדויקת בין מתאם לבין הקשר. מתאם הוא מדד לרמת הקשר בין שני דברים (או משתנים). למשל, האוניברסיטות מקיימות מבחנים פסיכומטריים כי מחקרים הראו שציון גבוה בבחינה פסיכומטרית מנבא הישגים גבוהים בלימודים האקדמיים. כלומר, קיים מתאם חיובי גבוה בין הציון הפסיכומטרי לממוצע הציונים בתואר ראשון.

שיטות רבות בניתוח נתונים עושות שימוש מוצלח במתאמים. למשל, בעקבות מציאת המתאם הגבוה בין עישון לסרטן ריאות חלחלה התובנה שעישון מזיק מאוד לבריאות. זאת למרות שבתחילת הדרך היו רופאים שהמליצו לעשן כתרופה למחלות שונות. הבעיה מתחילה כאשר מנסים לייחס פרשנויות שגויות למתאם, למשל סיבתיות שגויה. המתעניינים ימצאו על כך מידע רב באינטרנט, אני אסתפק בדוגמה מפורסמת אחת. מסתבר שיש מתאם גבוה בין מכירת גלידות לבין מקרי טביעה. כאשר מכירות הגלידה מזנקות, כך גם מקרי הטביעה. אז אולי כמו עישון, נאסור גם גלידה ובכך נציל נפשות רבות? כל בר דעת מבין שלצערנו בקיץ מתרבות הטביעות והגלידה, שאף היא פופולרית בקיץ, אינה הגורם לכך. אבל במקרים רבים הדברים פחות ברורים וחוקרים פזיזים קופצים למסקנות שגויות.

ואם נחזור לחוקי הקשר, כמו שלא כל הנוצץ זהב, העובדה ששני מוצרים נרכשים פעמים רבות יחד לא בהכרח מעידה על קשר ביניהם. אם למשל מדובר בלחם, אולי רק נדמה לנו שיש קשר בינו למוצר אחר, כי לחם הוא מוצר פופולרי שנרכש במקרים רבים. וגם אם שני מוצרים נרכשו תמיד יחד (בנתונים שלנו), צריך להיות זהירים. אם מדובר בשלושה סלים מתוך אלף, זה לא ממש משמעותי. יש לכל זה מדדים ופתרונות, ופה ושם חוקי הקשר מוצאים דברים מעניינים. אבל לטעמי התמונה הכללית מראה שאם אפשר, מומלץ כאמור לנסות קודם שיטות אחרות.

כתבות מומלצות

בת ים

שתי דירות במחיר אחת: האם זהו עתיד תחום הפינוי-בינוי?

אפליקציית קלארנה. החברה נמצאת במגעים לגיוס סבב חדש לפי שווי שנמוך בכ-30% מהשווי שקיבלה לפני שנה בלבד

"היערכו לגרוע מכל": נבואות החורבן בהיי-טק מתחילות להגשים את עצמן

בניין דירות בחולון

לקחתם משכנתא בחודשים האחרונים? גם אתם כבר שילמתם על עליית הריבית

"כשבאנו לקבל משכנתא לרכישת הבית, התברר שהבעיה לא פשוטה כלל"

הריבית במשק מזנקת – מה כדאי לעשות עם ההלוואות שלקחתי?

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

המשווקים של פוליסות החיסכון הם סוכני הביטוח, שנהנים מעמלות שמנות

"הציעו לי להעביר את החיסכון מאלטשולר. האם כדאי לי?"

אירוע של חברת איירון סורס. חברות שואפות למתג את עצמן כצעירות ואטרקטיביות

"אנשים חושבים לעצמם - איזה משכורות, איזה טירוף. בפועל זה רחוק מאוד מהמצב"