וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול

פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער ■ חלוקת פריטי המידע לקבוצות בעלות איברים דומים, היא שיטה שימושית לצורך ארגון וניתוח ראשוני של הנתונים וממקדת אותנו מהר יותר במה שאנחנו מחפשים

יעקב רימר
ד"ר יעקב רימר
יער ירוק ועצים כשברקע מציצה שמש
צילום: Elena Schweitzer | Dreamstime.co

בפוסט הקודם הצגתי בקצרה את שיטת גילוי האנומליות (Anomaly detection), אחת השיטות ללמידה בלתי-מונחית (Unsupervised learning). הפעם נעסוק באחת מהשיטות הפופולריות האלו – Clustering ובעברית אישכול (או צברור, או קיבוץ, ואפשר גם קליסטור). יש עשרות אלגוריתמים לאישכול, ולכולם אותה מטרה – לחלק את פריטי המידע לקבוצות בעלות איברים דומים.

למה זה טוב? כי פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער. חלוקה לקבוצות מאפשרת לקבל תובנות חדשות מהנתונים מעצם חלוקתם לקבוצות. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אישכול על התשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. עצם החלוקה לימדה אותנו יותר על המילה "ברק", וגם תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

שימו לב שבאישכול אין משמעות ל"נכון" ו"לא נכון". מתבצעת חלוקה כלשהיא, והמשמעות שלה היא בעיני המתבונן בלבד. אמחיש זאת בדוגמה הציורית הבא: אני מעוניין לחלק את חמשת העצמים הבאים לשתי קבוצות: תנין, קטר, כרוב, לוויתן וכדור. חלוקה אפשרית אחת תהיה: "תנין + כרוב", "קטר + לוויתן + כדור" (תמונה 1).

דוגמה
תמונה 1: חלוקה לפי צבע - קבוצת ה"ירוקים" וקבוצת ה"שחורים".צילום: ללא

אז מה יותר נכון? התנין יותר ירוק או יותר ארוך? תלוי בעיני המתבונן. בשני המקרים קיבלנו חלוקות הגיוניות שלימדו אותנו על תכונה משותפת לעצמים שקובצו יחדיו. וזה כל הרעיון של שיטה זו של למידה בלתי-מונחית. התהליך מלמד אותנו דברים חדשים, או מדגיש לנו דברים שאנחנו כבר יודעים, וכך מסייע לנו בניתוח המידע ובהגעה לתובנות חדשות.

תמונה 2
תמונה 2: חלוקה לפי צורה - קבוצת ה"עגולים" וקבוצת ה"ארוכים".צילום: ללא

והנה דוגמה בעולם המעשי. לחברה הקמעונאית שאת מנהלת יש לקוחות רבים. את מעוניינת לצאת במבצע חדש לקידום מכירות בדיוור ישיר. אבל סוף מעשה במחשבה תחילה. לפני שמדפיסים את המכתבים ושולחים, ניתן לפלח את הלקוחות לקבוצות באמצעות אישכול על פי משתנים שונים (סך קניות, סוג המוצרים, מקום מגורים ועוד). לאחר מכן להתבונן על כל קבוצה שנוצרה וללמוד על המשותף ללקוחות האלו, וכך להתאים את המבצע טוב יותר עבורם. זאת מכיוון שככל שהמבצע יהיה תפור יותר ללקוח, כך עולים הסיכויים להצלחתו. לדוגמה, לקבוצת לקוחות שגרים באזור מסוים בגליל ומרבים לקנות מוצרים אורגנים לא מומלץ להציע קופונים להמבורגרים וקבב, ולעומת זאת כנראה שקבוצת לקוחות עירוניים שמרבים לקנות בקצביה לא ישמחו לקבל קופון לנבטים.

פתחתי ואמרתי כי יש אלגוריתמים רבים לאישכול. המשותף לכולם הוא שחובה להגדיר להם מראש מהן התכונות לכל פריט שאנו רוצים להשוות, ועבור כל תכונה איך אנחנו מודדים דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). זהו לב העניין, ובעולם למידת המכונה דברים קמים ונופלים פעמים רבות על בחירה נבונה של תכונות ומטריקה. אם נחזור רגע לתנין ולחבריו, היינו יכולים לחשוב על עוד חלוקות הגיונית, כמו למשל קבוצת "דוממים", אל מול קבוצת "חיים" ועוד. החלוקות שיתקבלו תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, "האם זה חי", וכו'. וכאמור, גם בהגדרה של המטריקה עבור כל תכונה. עבור התכונה "אורך", זה די ברור, פשוט מודדים. אבל מה זה "דומה" בכל מה שקשור לצבע? כאן הדברים מעט יותר מסובכים.

המבורגר וכדורי פירה ב"המסעדה express"
המבורגר וכדורי פירה ב"המסעדה express"צילום: אפיק גבאי

לסיכום, אישכול היא שיטה פשוטה יחסית, ואם בחרנו נכון את התכונות והמטריקה, היא תהיה שימושית לצורך ארגון וניתוח ראשוני של הנתונים. אבל כאמור, היא משאירה חלק נכבד מה"עבודה" למתבונן, כלומר את שלב הסקת המסקנות לאחר ביצוע החלוקה. יש לה יישומים שונים, אבל ביישומים רבים בעולם המעשי היא לא תספיק לבדה. נכון יהיה להשתמש בה בצעדים הראשונים של תהליכי הניתוח, אבל לצורך מיצוי המידע שקיים בנתונים, ידרשו בד"כ שיטות נוספות, בתלות במטרות של תהליך הלמידה. נחזור להסביר את הנקודה הזאת לעומק לאחר שאציג שיטות ניתוח נוספות בהמשך.

יעקב רימר

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker