50 גוונים של סיווג: אתגרים שראוי לקחת אותם בחשבון לפני שמפתחים מודל נתונים

יש אתגרים שונים בדרך לסיווג מוצלח ■ והפעם, אתגרים בשונות של מרחב הבעיה ובחפיפה בין קבוצות הסיווג

יעקב רימר
ד"ר יעקב רימר
יעקב רימר
ד"ר יעקב רימר

בפוסטים קודמים עסקתי מספר פעמים בשיטת הסיווג, אחת מהטכניקות החשובות ביותר בלמידה וביג-דאטה. נזכיר שהמטרה בסיווג היא לחלק עצמים לקבוצות שהוגדרו מראש, באמצעות דוגמות שנאספו לכל קבוצה. הצגתי מספר אתגרים בדרך לסיווג מוצלח, וזאת לאור מטרות הבלוג – לתת לקורא תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות. מכיוון שבמהלך הקריירה שלי אני נפגש בעוד ועוד מודלי סיווג בעייתיים, אנסה להצביע על אתגרים נוספים שראוי לקחת אותם בחשבון לפני שיוצאים לדרך.

נזכיר את האתגרים לסיווג מוצלח שכבר עסקתי בהם: ראשית, מומלץ לשקול האם הבעיה שלכם אכן מתאימה לטכניקת הסיווג. במידה וכן, נדרש להכין מראש דוגמות רבות ולנקוט משנה זהירות במהלך הבחירה של הדוגמות. מומלץ מאוד גם לבחור באופן נבון את המאפיינים (התכונות) לסיווג. נעסוק הפעם בעוד שני אתגרים הנוגעים למרחב הבעיה איתה אתם מתמודדים: מידת השונות של העצמים אותם אתם מעוניינים לסווג, ומידת החפיפה בין קבוצות הסיווג.

אפתח בדוגמה הציורית (תרתי משמע) להמחשת המשמעות של מידת שונות העצמים לסיווג. נתבונן בתמונה 1. בבעיה שלפנינו עלינו לסווג נקודות צבעוניות לשתי קבוצות בלבד: "אדומים" ו"שאינם אדומים". זו כמובן דוגמה ציורית, אבל היא רלבנטית להרבה אפליקציות. למשל, הצורך לקבל החלטה האם אפליקציה בטלפון היא תמימה או זדונית (למשל וירוס), או בהקשר של משאלי עם, האם פוסט מסוים הוא בעד או נגד נושא המשאל.

.
תמונה 1: המחשה של שונות העצמים אותם אתם מעוניינים לסווג. החל מעולם פשוט בו יש בדיוק שני סוגים של עצמים (א), דרך עולם בעל שני סוגי עצמים, אבל מגוונים (ב), ועד עולם צבעוני בעל שונות גבוהה (ג).

התרחיש הנוח ביותר מומחש בחלק א' של תמונה 1. זהו עולם פשוט שיש בו אך ורק שני סוגים של עצמים. במקרה כזה, קל מאוד לסווג בין "אדומים" ל"כחולים" ע"י איסוף של מספר דוגמות מכל סוג (ואפילו חוק פשוט יעשה את זה). בתרחיש מורכב יותר (חלק ב'), אפשר עדיין לזהות בקלות שני סוגים, "נוטים לאדום" ו"נוטים לכחול", למרות שלכל אחד מהם יש מספר גוונים שונים. מאתגר יותר מהמקרה הקודם, כנראה שנדרש לאסוף יותר דוגמות כדי לכסות את המגוון, אבל עדיין פשוט יחסית. העולם השלישי הוא כבר צבעוני מאוד ובעל שונות גבוהה (חלק ג'). האם כתום עדיין נחשב לאדום? ומה לגבי הסגול? אני מכיר אנשים (גברים כמובן) שיהיו מוכנים להישבע שכן.

וברצינות, ברור שלכל עצם מעניין בעולם האמתי יש יותר תכונות מאשר צבעו. במקרים כאלו המורכבות גבוהה יותר כמובן והגיוון במרחב מהווה אתגר משמעותי. לצערנו זהו המקרה השכיח בבעיות ביג-דאטה מעניינות. למשל בעולם הסייבר, בניסיון להחליט האם קובץ מסוים הוא זדוני או לא. קיים מגוון גדול של סוגי קבצים זדוניים, ומגוון נרחב יותר של קבצים תמימים. לכן הניסיון לסווג קבצים בלי להתייחס למגוון הזה הוא בעייתי. אני מופתע כל פעם מחדש לגלות עד כמה אנשים שעוסקים בכך מתקשים להבין את האמת הפשוטה הזו. יש לכך מספר פתרונות, אבל חוסר מודעות לבעיה מוביל לרוב לתוצאות גרועות

האתגר השני עליו נדבר הפעם רלוונטי למצבים בהם נדרש לסווג את העצמים ליותר משתי קבוצות. בהמשך לאווירת הבחירות, למשל בניסיון להבין את הנטיות הפוליטיות של אדם מסוים לפי ניתוח הפוסטים שלו ברשת חברתית. אפתח שוב בהמחשה ציורית, דומה לדוגמה בה השתמשתי עבור נושא האשכול. התבוננו בתמונה 2. אני מעוניין לסווג את כל העצמים בעולם לשתי קבוצות: "עגולים" ועצמים ששייכים ל"עולם הצומח". אספתי כנדרש דוגמות לכל אחת הקבוצות. כדור ומטבע עגולים, ופרח, עץ ותפוח שייכים לעולם הצומח. כעת עלי לסווג את הכרוב. הוא שייך כידוע לעולם הצומח, אבל הוא גם עגול. מה עושים?

.
תמונה 2: לאיזו קבוצה מתאים הכרוב?

שוב, כמו באתגר הקודם, העניינים כמובן מסובכים יותר בבעיות אמת. חוסר יכולת לבדל בין הקבוצות לסיווג עלול לגרום לקבלת מודלי סיווג בעייתיים ולתוצאות שגויות (תלוי בשאלה שאנחנו מנסים לפתור). נחזור לדוגמה של סיווג נטיותיו הפוליטיות של אדם על פי הפוסטים שלו. אני מניח שכל בר דעת מבין שבישראל יש מידה רבה של חפיפה בין מפלגות שונות. לכן ניסיון כזה עלול להסתיים בחלוקה שגויה. גם לבעיה הזו יש פתרונות שונים, תלוי בטכניקת הסיווג ובמטרה שלנו. אחד הפתרונות הפשוטים הוא להוסיף אפשרות של קבוצת "לא ידוע". במצב כזה כל עצם שהסיווג שלו אינו חד משמעי מספיק (כלומר, לא עובר סף), יסווג כ"לא ידוע" והוא לא "ילכלך" לנו את תוצאות הסיווג.

ודרך אגב, על הדרך נפתור גם בעיה נוספת. כזכור, ציינתי בדוגמה לעיל שאני מעוניין לסווג את כל העצמים בעולם לשתי קבוצות. ברור שיש עצמים רבים שלא מתאימים לאף אחת מהן. גם כאן קבוצת "לא ידוע" באה להצלה. אבל לא תמיד ניתן להוסיף אותה, כי יש אפליקציות בהן חייבים לקבל החלטה בכל מצב. עבורן ניאלץ להשתמש בפתרונות אחרים.

יעקב רימר

ד"ר יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

על סדר היום