50 גוונים של סיווג: אתגרים שראוי לקחת אותם בחשבון לפני שמפתחים מודל נתונים - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

50 גוונים של סיווג: אתגרים שראוי לקחת אותם בחשבון לפני שמפתחים מודל נתונים

יש אתגרים שונים בדרך לסיווג מוצלח ■ והפעם, אתגרים בשונות של מרחב הבעיה ובחפיפה בין קבוצות הסיווג

בפוסטים קודמים עסקתי מספר פעמים בשיטת הסיווג, אחת מהטכניקות החשובות ביותר בלמידה וביג-דאטה. נזכיר שהמטרה בסיווג היא לחלק עצמים לקבוצות שהוגדרו מראש, באמצעות דוגמות שנאספו לכל קבוצה. הצגתי מספר אתגרים בדרך לסיווג מוצלח, וזאת לאור מטרות הבלוג – לתת לקורא תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות. מכיוון שבמהלך הקריירה שלי אני נפגש בעוד ועוד מודלי סיווג בעייתיים, אנסה להצביע על אתגרים נוספים שראוי לקחת אותם בחשבון לפני שיוצאים לדרך.

נזכיר את האתגרים לסיווג מוצלח שכבר עסקתי בהם: ראשית, מומלץ לשקול האם הבעיה שלכם אכן מתאימה לטכניקת הסיווג. במידה וכן, נדרש להכין מראש דוגמות רבות ולנקוט משנה זהירות במהלך הבחירה של הדוגמות. מומלץ מאוד גם לבחור באופן נבון את המאפיינים (התכונות) לסיווג. נעסוק הפעם בעוד שני אתגרים הנוגעים למרחב הבעיה איתה אתם מתמודדים: מידת השונות של העצמים אותם אתם מעוניינים לסווג, ומידת החפיפה בין קבוצות הסיווג.

אפתח בדוגמה הציורית (תרתי משמע) להמחשת המשמעות של מידת שונות העצמים לסיווג. נתבונן בתמונה 1. בבעיה שלפנינו עלינו לסווג נקודות צבעוניות לשתי קבוצות בלבד: "אדומים" ו"שאינם אדומים". זו כמובן דוגמה ציורית, אבל היא רלבנטית להרבה אפליקציות. למשל, הצורך לקבל החלטה האם אפליקציה בטלפון היא תמימה או זדונית (למשל וירוס), או בהקשר של משאלי עם, האם פוסט מסוים הוא בעד או נגד נושא המשאל.

.

התרחיש הנוח ביותר מומחש בחלק א' של תמונה 1. זהו עולם פשוט שיש בו אך ורק שני סוגים של עצמים. במקרה כזה, קל מאוד לסווג בין "אדומים" ל"כחולים" ע"י איסוף של מספר דוגמות מכל סוג (ואפילו חוק פשוט יעשה את זה). בתרחיש מורכב יותר (חלק ב'), אפשר עדיין לזהות בקלות שני סוגים, "נוטים לאדום" ו"נוטים לכחול", למרות שלכל אחד מהם יש מספר גוונים שונים. מאתגר יותר מהמקרה הקודם, כנראה שנדרש לאסוף יותר דוגמות כדי לכסות את המגוון, אבל עדיין פשוט יחסית. העולם השלישי הוא כבר צבעוני מאוד ובעל שונות גבוהה (חלק ג'). האם כתום עדיין נחשב לאדום? ומה לגבי הסגול? אני מכיר אנשים (גברים כמובן) שיהיו מוכנים להישבע שכן.

וברצינות, ברור שלכל עצם מעניין בעולם האמתי יש יותר תכונות מאשר צבעו. במקרים כאלו המורכבות גבוהה יותר כמובן והגיוון במרחב מהווה אתגר משמעותי. לצערנו זהו המקרה השכיח בבעיות ביג-דאטה מעניינות. למשל בעולם הסייבר, בניסיון להחליט האם קובץ מסוים הוא זדוני או לא. קיים מגוון גדול של סוגי קבצים זדוניים, ומגוון נרחב יותר של קבצים תמימים. לכן הניסיון לסווג קבצים בלי להתייחס למגוון הזה הוא בעייתי. אני מופתע כל פעם מחדש לגלות עד כמה אנשים שעוסקים בכך מתקשים להבין את האמת הפשוטה הזו. יש לכך מספר פתרונות, אבל חוסר מודעות לבעיה מוביל לרוב לתוצאות גרועות

האתגר השני עליו נדבר הפעם רלוונטי למצבים בהם נדרש לסווג את העצמים ליותר משתי קבוצות. בהמשך לאווירת הבחירות, למשל בניסיון להבין את הנטיות הפוליטיות של אדם מסוים לפי ניתוח הפוסטים שלו ברשת חברתית. אפתח שוב בהמחשה ציורית, דומה לדוגמה בה השתמשתי עבור נושא האשכול. התבוננו בתמונה 2. אני מעוניין לסווג את כל העצמים בעולם לשתי קבוצות: "עגולים" ועצמים ששייכים ל"עולם הצומח". אספתי כנדרש דוגמות לכל אחת הקבוצות. כדור ומטבע עגולים, ופרח, עץ ותפוח שייכים לעולם הצומח. כעת עלי לסווג את הכרוב. הוא שייך כידוע לעולם הצומח, אבל הוא גם עגול. מה עושים?

.

שוב, כמו באתגר הקודם, העניינים כמובן מסובכים יותר בבעיות אמת. חוסר יכולת לבדל בין הקבוצות לסיווג עלול לגרום לקבלת מודלי סיווג בעייתיים ולתוצאות שגויות (תלוי בשאלה שאנחנו מנסים לפתור). נחזור לדוגמה של סיווג נטיותיו הפוליטיות של אדם על פי הפוסטים שלו. אני מניח שכל בר דעת מבין שבישראל יש מידה רבה של חפיפה בין מפלגות שונות. לכן ניסיון כזה עלול להסתיים בחלוקה שגויה. גם לבעיה הזו יש פתרונות שונים, תלוי בטכניקת הסיווג ובמטרה שלנו. אחד הפתרונות הפשוטים הוא להוסיף אפשרות של קבוצת "לא ידוע". במצב כזה כל עצם שהסיווג שלו אינו חד משמעי מספיק (כלומר, לא עובר סף), יסווג כ"לא ידוע" והוא לא "ילכלך" לנו את תוצאות הסיווג.

ודרך אגב, על הדרך נפתור גם בעיה נוספת. כזכור, ציינתי בדוגמה לעיל שאני מעוניין לסווג את כל העצמים בעולם לשתי קבוצות. ברור שיש עצמים רבים שלא מתאימים לאף אחת מהן. גם כאן קבוצת "לא ידוע" באה להצלה. אבל לא תמיד ניתן להוסיף אותה, כי יש אפליקציות בהן חייבים לקבל החלטה בכל מצב. עבורן ניאלץ להשתמש בפתרונות אחרים.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#