וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול

פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער ■ חלוקת פריטי המידע לקבוצות בעלות איברים דומים, היא שיטה שימושית לצורך ארגון וניתוח ראשוני של הנתונים וממקדת אותנו מהר יותר במה שאנחנו מחפשים

יער ירוק ועצים כשברקע מציצה שמש
Elena Schweitzer | Dreamstime.co

בפוסט הקודם הצגתי בקצרה את שיטת גילוי האנומליות (Anomaly detection), אחת השיטות ללמידה בלתי-מונחית (Unsupervised learning). הפעם נעסוק באחת מהשיטות הפופולריות האלו – Clustering ובעברית אישכול (או צברור, או קיבוץ, ואפשר גם קליסטור). יש עשרות אלגוריתמים לאישכול, ולכולם אותה מטרה – לחלק את פריטי המידע לקבוצות בעלות איברים דומים.

למה זה טוב? כי פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער. חלוקה לקבוצות מאפשרת לקבל תובנות חדשות מהנתונים מעצם חלוקתם לקבוצות. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אישכול על התשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. עצם החלוקה לימדה אותנו יותר על המילה "ברק", וגם תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

שימו לב שבאישכול אין משמעות ל"נכון" ו"לא נכון". מתבצעת חלוקה כלשהיא, והמשמעות שלה היא בעיני המתבונן בלבד. אמחיש זאת בדוגמה הציורית הבא: אני מעוניין לחלק את חמשת העצמים הבאים לשתי קבוצות: תנין, קטר, כרוב, לוויתן וכדור. חלוקה אפשרית אחת תהיה: "תנין + כרוב", "קטר + לוויתן + כדור" (תמונה 1).

דוגמה
ללא

אז מה יותר נכון? התנין יותר ירוק או יותר ארוך? תלוי בעיני המתבונן. בשני המקרים קיבלנו חלוקות הגיוניות שלימדו אותנו על תכונה משותפת לעצמים שקובצו יחדיו. וזה כל הרעיון של שיטה זו של למידה בלתי-מונחית. התהליך מלמד אותנו דברים חדשים, או מדגיש לנו דברים שאנחנו כבר יודעים, וכך מסייע לנו בניתוח המידע ובהגעה לתובנות חדשות.

תמונה 2
ללא

והנה דוגמה בעולם המעשי. לחברה הקמעונאית שאת מנהלת יש לקוחות רבים. את מעוניינת לצאת במבצע חדש לקידום מכירות בדיוור ישיר. אבל סוף מעשה במחשבה תחילה. לפני שמדפיסים את המכתבים ושולחים, ניתן לפלח את הלקוחות לקבוצות באמצעות אישכול על פי משתנים שונים (סך קניות, סוג המוצרים, מקום מגורים ועוד). לאחר מכן להתבונן על כל קבוצה שנוצרה וללמוד על המשותף ללקוחות האלו, וכך להתאים את המבצע טוב יותר עבורם. זאת מכיוון שככל שהמבצע יהיה תפור יותר ללקוח, כך עולים הסיכויים להצלחתו. לדוגמה, לקבוצת לקוחות שגרים באזור מסוים בגליל ומרבים לקנות מוצרים אורגנים לא מומלץ להציע קופונים להמבורגרים וקבב, ולעומת זאת כנראה שקבוצת לקוחות עירוניים שמרבים לקנות בקצביה לא ישמחו לקבל קופון לנבטים.

פתחתי ואמרתי כי יש אלגוריתמים רבים לאישכול. המשותף לכולם הוא שחובה להגדיר להם מראש מהן התכונות לכל פריט שאנו רוצים להשוות, ועבור כל תכונה איך אנחנו מודדים דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). זהו לב העניין, ובעולם למידת המכונה דברים קמים ונופלים פעמים רבות על בחירה נבונה של תכונות ומטריקה. אם נחזור רגע לתנין ולחבריו, היינו יכולים לחשוב על עוד חלוקות הגיונית, כמו למשל קבוצת "דוממים", אל מול קבוצת "חיים" ועוד. החלוקות שיתקבלו תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, "האם זה חי", וכו'. וכאמור, גם בהגדרה של המטריקה עבור כל תכונה. עבור התכונה "אורך", זה די ברור, פשוט מודדים. אבל מה זה "דומה" בכל מה שקשור לצבע? כאן הדברים מעט יותר מסובכים.

המבורגר וכדורי פירה ב"המסעדה express"
אפיק גבאי

לסיכום, אישכול היא שיטה פשוטה יחסית, ואם בחרנו נכון את התכונות והמטריקה, היא תהיה שימושית לצורך ארגון וניתוח ראשוני של הנתונים. אבל כאמור, היא משאירה חלק נכבד מה"עבודה" למתבונן, כלומר את שלב הסקת המסקנות לאחר ביצוע החלוקה. יש לה יישומים שונים, אבל ביישומים רבים בעולם המעשי היא לא תספיק לבדה. נכון יהיה להשתמש בה בצעדים הראשונים של תהליכי הניתוח, אבל לצורך מיצוי המידע שקיים בנתונים, ידרשו בד"כ שיטות נוספות, בתלות במטרות של תהליך הלמידה. נחזור להסביר את הנקודה הזאת לעומק לאחר שאציג שיטות ניתוח נוספות בהמשך.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#