סיווג מוצלח – סוף מעשה במחשבה תחילה

יעקב רימר
ד"ר יעקב רימר
.
יעקב רימר
ד"ר יעקב רימר

הפוסט הקודם המשיך לעסוק באחת מהטכניקות החשובות והשימושיות ביותר – סיווג (Classification). נזכיר כי המטרה היא למצוא אופן חלוקה (או מודל בשפה המקצועית) שיצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר. רמזתי שיש מספר דברים שיכולים להשתבש. אנסה להמחיש חלק מהאתגרים בדרך למודל סיווג מוצלח, כדי שתוכלו להעריך את הקשיים שיעמדו בפניכם.

ראשית, כדי לפתח מודל סיווג יש צורך בדוגמאות מתויגות עבור כל קבוצה אליה אנחנו רוצים לסווג. יש מקרים שאין בכך בעיה, אולם במקרים רבים מדובר באתגר לא קטן, מכמה סיבות. הזכרתי בפעם הקודמת את הקושי באיסוף דוגמאות לתביעות תמימות ותביעות זדוניות לצורך בנית מודל לאיתור הונאות ביטוח. לפעמים הקושי מתחיל עוד קודם, כי אין בנמצא מאגר מתויג (כלומר, עם תשובות נכונות). לדוגמא, אני רוצה לאמן מסווג שיזהה תקשורת זדונית שמקורה בהתקפת סייבר. כמו קודם, צריך להכין מאגרים של קטעי תקשורת זדוניים אל מול תמימים. אבל להבדיל מתביעות ביטוח שנבדקות ע"י אנשים שמקבלים החלטות, את הרוב המוחלט של תעבורת התקשורת עין אנוש לא שזפה. נדרש לבצע תהליך מלאכותי ארוך ומייגע וגם כאן אין כמובן ודאות לאיכות התיוג. גרוע מכך, לפעמים לא ניתן לעשות זאת כלל בשל הגנת פרטיות. 

גם כשאפשר לאסוף דוגמאות, חשוב לזכור שנדרשת כמות שתאפשר גם תהליך של אימון המודל וגם תהליך של בדיקתו. אחת הטעויות הנפוצות של טירוני ביג דאטה היא להשתמש באותן דוגמאות לשני התהליכים (אימון ובדיקה). הם בד"כ מרוצים מהתוצאה, כי המודל נותן תוצאות פנטסטיות. בפועל, הם יצרו מודל שמותאם אך ורק לדוגמאות האלו, בעגה המקצועית טבלת חיפוש (lookup table). מודל כזה יראה בד"כ ביצועים גרועים בעולם האמיתי.

נניח שהצלחנו לאסוף מספיק דוגמאות. עדיין צריך להבין האם הן מייצגות בצורה נאותה את מרחב הבעיה שאנחנו מנסים לפתור. והנה עוד דוגמא מעולם הסייבר. נניח שאנו רוצים לבנות מודל סיווג שיבדיל בין קבצים זדוניים (וירוסים) לבין קבצים רגילים (תמימים). לצורך כך, אספנו מאגר של אלפי דוגמאות של קבצי וירוסים (אפשר להשיג כאלו ברשת). כעת, כל מה שנותר לעשות הוא לבנות מאגר של אלפי דוגמאות לקבצי מחשב תמימים. פשוט, לא? לא בהכרח. עוד טעות של טירונים שנתקלתי בה מספר פעמים היא לאסוף דוגמאות "תמימות" מכל הבא ליד, ללא חשיבה על ההשלכות. בדוגמא שלנו, לאסוף קבצים מכמה מחשבים "בסביבה" (למביני סייבר, נניח שהתמקדנו בקבצי הרצה). הבעיה היא שמרבית הקבצים שנמצא, אם לא נקדיש זמן ומחשבה, הם קבצים של חברת מייקרוסופט ששייכים למערכת ההפעלה Windows, לתוכנות אופיס וכדומה. כלומר, למרות שהכוונה היא לסווג בין וירוסים לקבצים תמימים כלשהם, המודל ילמד בפועל לזהות קבצים של חברת מיקרוסופט ויהיה חסר ערך לזיהוי וירוסים.

אמחיש זאת בדוגמה הציורית הבאה. המטרה שלכם היא לזהות חשודים בתוך חדר מלא אנשים. אמרו לכם שמדובר בגברים לובשי מכנסי ג'ינס. התבוננו בתמונה 1. האם אתם מזהים את החשודים?

תמונה 1: זהו בתמונה את החשודים, שני גברים לובשי מכנסי ג'ינס.
תמונה 1: זהו בתמונה את החשודים, שני גברים לובשי מכנסי ג'ינס.

אני מנחש שלא היו לכם קשיים מיוחדים לעמוד במשימה. כעת התבוננו בתמונה 2. גם הפעם עליכם לזהות את החשודים שלבושים במכנסי ג'ינס. האם גם עכשיו עמדתם במשימה? שני "החשודים" מתמונה 1 נשארו בדיוק באותו מיקום, רק ה"קהל התמים" סביבם השתנה. אני מנחש שאלמלא התבוננתם קודם בתמונה 1, הייתם מתקשים לזהות את החשודים רק על סמך התכונות מגדר ("גבר") וסוג מכנסיים ("מכנסי ג'ינס").

תמונה 2: האם גם כאן קל לזהות את החשודים?
תמונה 2: האם גם כאן קל לזהות את החשודים?

ניסיון לבניית מודל לזיהוי וירוסים ע"י השוואתם רק לקבצים של חברת מיקרוסופט, שקול לבניית מודל מסווג לזיהוי חשודים ע"י אימון של דוגמאות של חשודים גברים רק מול דוגמאות לנשים (האמת היא שגרוע מכך, כי יש בעולמנו רק שני מגדרים, אבל הרבה סוגי קבצים). כזכור, האימון והבדיקה במעבדה נעשים על חלוקה של אותו אוסף דוגמאות שהכנו. כמו מקודם, מפתחי המודל יהיו מרוצים מאוד מהתוצאות שקיבלו ב"מעבדה". בפועל, מדובר במודל חסר ערך לבעיה.

זאת היתה סקירה על קצה המזלג של חלק קטן מהאתגרים שעומדים בפני יצירה של מודל סיווג טוב. שוב, אין בכל זה כדי לרפות את ידיכם, ההיפך הוא הנכון. כפי שציינתי גם בפעם הקודמת, יש הרבה מאוד יישומים של סיווג שעובדים היטב (ואפילו מצוין). עם זאת, כדאי להכיר את עולם הבעיה אותה מנסים לפתור ולחשוב לפני שאוספים דוגמאות ובונים מודל. כבר אמרו חכמים ממני שסוף מעשה במחשבה תחילה.

יעקב רימר

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

תגובות

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ