ארוך ומייגע - אבל אפשרי: איך בונים מודל שחוזה את העתיד?

ככל שיש לנו יותר מידע - שיטות הסיווג רק הולכות ומשתפרות ■ ישנם עשרות אלגוריתמים קיימים לסיווג, ונעזרים בהם כדי לאמן את המודל שלכם לזהות דפוסים חריגים או כאלו שאתם רוצים לעקוב אחריהם

יעקב רימר
ד"ר יעקב רימר
מאט דיימון בסרט וויל האנטינג
מאט דיימון בסרט וויל האנטינגצילום: צילום מסך מיוטיוב
יעקב רימר
ד"ר יעקב רימר

בשני הפוסטים הראשונים הצגתי בקצרה שתי שיטות למידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ואישכול. בפוסט הקודם התחלנו לעסוק בשיטת הסיווג (Classification), אחת משיטות הלמידה המונחית (Supervised learning) החשובות והשימושיות ביותר ונמשיך לעסוק בה גם הפעם.

המטרה כאמור היא לחלק (או למיין) את העצמים לקבוצות שמוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה. הרעיון הבסיסי הוא ללמוד בצורה מונחה מדוגמאות אמיתיות שהתוצאה עבורן ידועה. נמחיש את תהליך הסיווג (וחלק מהקשיים בו) באמצעות דוגמה לגילוי הונאות ביטוח בתאונות דרכים. מטרתנו היא לבנות מודל שידע לסווג תביעות ביטוח חדשות לשתי קבוצות: תביעה רגילה (תמימה) ותביעה זדונית (הונאה).

ראשית אנו צריכים לאסוף דוגמאות של תביעות ביטוח מהעבר שהיו תמימות ואמיתיות (ככל הידוע לחברה), אל מול דוגמאות לתביעות שהוכח שהן היו זדוניות. כבר כאן הדברים אינם תמיד פשוטים. למרות שלצערנו יש לא מעט מקרים של ניסיונות להונאת ביטוח, כדי לאמן מודל אנו זקוקים לתביעות שהוכח שהן זדוניות. כאלה יש פחות. מצד שני, גם תביעות תמימות לכאורה שכמותן יש הרבה, יכולות בפועל להיות הונאות שאף אחד לא עלה עליהן. כלומר, מצד אחד לא קל לאסוף דוגמאות זדוניות מוכחות, ומצד שני אין ודאות מלאה גם עבור הדוגמאות התמימות הרבות. למרות שיש דרכים שונות להתגבר על כך, זה מסבך את תהליך אימון מודל הסיווג.

כעת עלינו לבחור באילו נתונים נרצה להשתמש מתוך כל תיק תביעה. למשל, נתונים עבור הרכבים שהיו מעורבים בתאונה: כמה רכבים, מאיזה סוג (פרארי, למבורגיני או טרנטה?), שנת יצור וכו'; נתונים אודות הנוסעים שהיו מעורבים בתאונה: גיל, מגדר, מצב משפחתי, סוג פציעה (למשל פנימית, ראש, גב), מי נהג ברכב  ועוד; נתונים אודות הפוליסה: מתי הונפקה, האם מדובר בפוליסה חדשה או בחידוש של פוליסה קיימת וכו'. וכמובן - נתונים אודות האירוע עצמו: באיזה יום התרחש, היכן, באיזה שעה, תוך כמה זמן הודיעו למשטרה, תוך כמה זמן הגיעו הנפגעים לבית החולים, תוך כמה זמן הוגשה התביעה וכו'. אולי זה נשמע לכם כמו הרבה נתונים, אבל זוהי רק ההתחלה של ההקדמה למבוא של תהליך איסוף הנתונים. בכל זאת אנחנו עוסקים בביג דאטה...

יש עוד הרבה נתונים אחרים שניתן לאסוף עבור כל תביעה (תמימה או זדונית). כאן תקף הכלל "כל המרבה הרי זה משובח", כי קשה לקבוע מראש אילו מתוכם אכן יהיו משמעותיים. לאחר שאספנו את כל הנתונים (וביצענו עליהם כל מיני תהליכי "סדר וניקיון" מייגעים), הגיע הזמן לבנות את מודל הסיווג.

משתמשים באחד מתוך עשרות האלגוריתמים שקיימים לסיווג, ונעזרים בו כדי לאמן מודל שיבדיל בין תביעה אמיתית לזדונית. לצורך האימון משתמשים רק בחלק מהדוגמאות שאספנו, בתוספת הידע האם מדובר בהונאה או לא. בחלק האחר של הדוגמאות נשתמש על מנת לבדוק האם המודל אכן מבצע את מלאכתו נאמנה. נזין לו אותן (בלי התשובות הידועות), ונבחן עד כמה הוא צודק בסיווג של כל דוגמה לקבוצה המתאימה לה. למרות שאלו דוגמאות מהעבר, הן חדשות עבור המודל. לפיכך, לימוד ביצועי המודל עליהן מהווה מדד טוב לגבי התוצאות שיתקבלו ממנו בעתיד, בעולם האמיתי. רק לאחר שקיבלנו אחוז דיוק משביע רצון (אם בכלל), אנו מוכנים לעבור לשלב בו נבחן את המודל "בשטח" על תביעות חדשות.

כדור בדולח
אז... הפעם זה יהיה שונה?צילום: ללא קרדיט

אם כל זה נשמע לכם ארוך ומייגע, אתם לגמרי צודקים. זה ארוך ומייגע. וגם לא תמיד מצליח. וזה עוד בלי שתיארתי איך מודדים את איכות המודל, איך מכיילים אותו ומה יכול להשתבש בכל התהליכים האלו (רמז, הרבה דברים). אבל השורה התחתונה היא חיובית.

יש הרבה מאוד יישומים של סיווג שעובדים היטב (ואפילו מצוין), וככל שיש לנו יותר מידע (כלומר, יש לנו ביג דאטה), שיטות הסיווג רק הולכות ומשתפרות. לדוגמא, בעולם החוזי והראייה הממוחשבת שיטות סיווג משמשות לזיהוי פגמים בתהליכי יצור, זיהוי של ספרות (למשל בלוחית הרכב בכבישי אגרה), זיהוי עצמים בתמונה/סרט, זיהוי של פירות בקופה אוטומטית בסופר ועוד. בנקים למשל משתמשים באלגוריתם שמבוסס על נתוני הלווה כדי להחליט מה הסיכוי שיוכל להחזיר את ההלוואה. הזכרתי כבר בכתבה הקודמת עוד יישומים מהעולם המסחרי ומעולם הסייבר ויש עוד יישומים מוצלחים רבים. ובאווירה אופטימית זו נסיים הפעם.

יעקב רימר

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

תגובות

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ