ביג דאטה |

וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול

פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער ■ חלוקת פריטי המידע לקבוצות בעלות איברים דומים, היא שיטה שימושית לצורך ארגון וניתוח ראשוני של הנתונים וממקדת אותנו מהר יותר במה שאנחנו מחפשים ■ חלק שני בסדרה

ד"ר יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
יער ירוק ועצים כשברקע מציצה שמש
צילום: Elena Schweitzer | Dreamstime.co
ד"ר יעקב רימר

בכתבה הקודמת בסדרה הצגתי בקצרה את שיטת גילוי האנומליות (Anomaly detection), אחת השיטות ללמידה בלתי-מונחית (Unsupervised learning). הפעם נעסוק באחת מהשיטות הפופולריות האלו – Clustering ובעברית אישכול (או צברור, או קיבוץ, ואפשר גם קליסטור). יש עשרות אלגוריתמים לאישכול, ולכולם אותה מטרה – לחלק את פריטי המידע לקבוצות בעלות איברים דומים.

למה זה טוב? כי פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער. חלוקה לקבוצות מאפשרת לקבל תובנות חדשות מהנתונים מעצם חלוקתם לקבוצות. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אישכול על התשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. עצם החלוקה לימדה אותנו יותר על המילה "ברק", וגם תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

שימו לב שבאישכול אין משמעות ל"נכון" ו"לא נכון". מתבצעת חלוקה כלשהיא, והמשמעות שלה היא בעיני המתבונן בלבד. אמחיש זאת בדוגמה הציורית הבא: אני מעוניין לחלק את חמשת העצמים הבאים לשתי קבוצות: תנין, קטר, כרוב, לוויתן וכדור. חלוקה אפשרית אחת תהיה: "תנין + כרוב", "קטר + לוויתן + כדור" (תמונה 1).

תמונה 1: חלוקה לפי צבע - קבוצת ה"ירוקים" וקבוצת ה"שחורים".צילום: ללא

אפשרות אחרת יכולה להיות: "כדור + כרוב", "קטר + לוויתן + תנין " (תמונה 2)

תמונה 2: חלוקה לפי צורה - קבוצת ה"עגולים" וקבוצת ה"ארוכים".צילום: ללא

אז מה יותר נכון? התנין יותר ירוק או יותר ארוך? תלוי בעיני המתבונן. בשני המקרים קיבלנו חלוקות הגיוניות שלימדו אותנו על תכונה משותפת לעצמים שקובצו יחדיו. וזה כל הרעיון של שיטה זו של למידה בלתי-מונחית. התהליך מלמד אותנו דברים חדשים, או מדגיש לנו דברים שאנחנו כבר יודעים, וכך מסייע לנו בניתוח המידע ובהגעה לתובנות חדשות.

והנה דוגמה בעולם המעשי. לחברה הקמעונאית שאת מנהלת יש לקוחות רבים. את מעוניינת לצאת במבצע חדש לקידום מכירות בדיוור ישיר. אבל סוף מעשה במחשבה תחילה. לפני שמדפיסים את המכתבים ושולחים, ניתן לפלח את הלקוחות לקבוצות באמצעות אישכול על פי משתנים שונים (סך קניות, סוג המוצרים, מקום מגורים ועוד). לאחר מכן להתבונן על כל קבוצה שנוצרה וללמוד על המשותף ללקוחות האלו, וכך להתאים את המבצע טוב יותר עבורם. זאת מכיוון שככל שהמבצע יהיה תפור יותר ללקוח, כך עולים הסיכויים להצלחתו. לדוגמה, לקבוצת לקוחות שגרים באזור מסוים בגליל ומרבים לקנות מוצרים אורגנים לא מומלץ להציע קופונים להמבורגרים וקבב, ולעומת זאת כנראה שקבוצת לקוחות עירוניים שמרבים לקנות בקצביה לא ישמחו לקבל קופון לנבטים.

לא כדאי להציע קופונים לנבטים לקבוצה של חובבי המבורגריםצילום: אפיק גבאי

פתחתי ואמרתי כי יש אלגוריתמים רבים לאישכול. המשותף לכולם הוא שחובה להגדיר להם מראש מהן התכונות לכל פריט שאנו רוצים להשוות, ועבור כל תכונה איך אנחנו מודדים דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). זהו לב העניין, ובעולם למידת המכונה דברים קמים ונופלים פעמים רבות על בחירה נבונה של תכונות ומטריקה. אם נחזור רגע לתנין ולחבריו, היינו יכולים לחשוב על עוד חלוקות הגיונית, כמו למשל קבוצת "דוממים", אל מול קבוצת "חיים" ועוד. החלוקות שיתקבלו תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, "האם זה חי", וכו'. וכאמור, גם בהגדרה של המטריקה עבור כל תכונה. עבור התכונה "אורך", זה די ברור, פשוט מודדים. אבל מה זה "דומה" בכל מה שקשור לצבע? כאן הדברים מעט יותר מסובכים.

לסיכום, אישכול היא שיטה פשוטה יחסית, ואם בחרנו נכון את התכונות והמטריקה, היא תהיה שימושית לצורך ארגון וניתוח ראשוני של הנתונים. אבל כאמור, היא משאירה חלק נכבד מה"עבודה" למתבונן, כלומר את שלב הסקת המסקנות לאחר ביצוע החלוקה. יש לה יישומים שונים, אבל ביישומים רבים בעולם המעשי היא לא תספיק לבדה. נכון יהיה להשתמש בה בצעדים הראשונים של תהליכי הניתוח, אבל לצורך מיצוי המידע שקיים בנתונים, ידרשו בד"כ שיטות נוספות, בתלות במטרות של תהליך הלמידה. נחזור להסביר את הנקודה הזאת לעומק לאחר שאציג שיטות ניתוח נוספות בהמשך.

ד"ר יעקב רימר הוא יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ואנליטיקה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה.

ד"ר יעקב רימרצילום: ללא קרדיט

לחצו על הפעמון לעדכונים בנושא:

כתבות מומלצות

בריכות סחף מבטון אקולוגי של חברת אקונקריט הישראלית בניו-יורק

"שיטפון של יזמים": דור חדש מנסה להיכנס לתחום הכי בוער בהיי־טק

מכוניות של טסלה במפעל החברה. מייצרת את המנועים וחלק ניכר מהאלקטרוניקה של המכוניות שלה

המכונית הפרטית עוברת מהפכה שסוחפת את כל התעשייה

קניון ממילא בירושלים. "גידול במכירות של מותגי אופנה מוזלים"

"חיים את הרגע": אוכלים במסעדות, יוצאים לבלות — וטסים לחו"ל

שיעור העובדים שמרגישים שהם בעלי השפעה, ושמקום העבודה שלהם מניע אותם לתרום ולהגיע
להישגים, ירד באופן משמעותי השנה

"הבטיחו לקדם אותי ואז הביאו מישהו מבחוץ. אם זה יקרה שוב – אתפטר"

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

נתי סיידוף, בעל השליטה בשיכון ובינוי. רכש את החברה בהנחה של 13% על מחיר הבורסה של המניה

נטישת מנהלים, חוב תופח — ותשואת חסר עמוקה: מה קורה בשיכון ובינוי?

צעירים בטיילת בתל אביב. בקשה מהעובדים להגיע למשרד נהפכת להתקפה פרסונלית עליהם

"הפסקתי להעסיק צעירים. הם מפונקים ולא ראו אותי, אלא רק רצו לקחת ממני"