ארוך ומייגע - אבל אפשרי: איך בונים מודל שחוזה את העתיד? - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

ארוך ומייגע - אבל אפשרי: איך בונים מודל שחוזה את העתיד?

ככל שיש לנו יותר מידע - שיטות הסיווג רק הולכות ומשתפרות ■ ישנם עשרות אלגוריתמים קיימים לסיווג, ונעזרים בהם כדי לאמן את המודל שלכם לזהות דפוסים חריגים או כאלו שאתם רוצים לעקוב אחריהם

מאט דיימון בסרט וויל האנטינג
צילום מסך מיוטיוב

בשני הפוסטים הראשונים הצגתי בקצרה שתי שיטות למידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ואישכול. בפוסט הקודם התחלנו לעסוק בשיטת הסיווג (Classification), אחת משיטות הלמידה המונחית (Supervised learning) החשובות והשימושיות ביותר ונמשיך לעסוק בה גם הפעם.

המטרה כאמור היא לחלק (או למיין) את העצמים לקבוצות שמוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה. הרעיון הבסיסי הוא ללמוד בצורה מונחה מדוגמאות אמיתיות שהתוצאה עבורן ידועה. נמחיש את תהליך הסיווג (וחלק מהקשיים בו) באמצעות דוגמה לגילוי הונאות ביטוח בתאונות דרכים. מטרתנו היא לבנות מודל שידע לסווג תביעות ביטוח חדשות לשתי קבוצות: תביעה רגילה (תמימה) ותביעה זדונית (הונאה).

ראשית אנו צריכים לאסוף דוגמאות של תביעות ביטוח מהעבר שהיו תמימות ואמיתיות (ככל הידוע לחברה), אל מול דוגמאות לתביעות שהוכח שהן היו זדוניות. כבר כאן הדברים אינם תמיד פשוטים. למרות שלצערנו יש לא מעט מקרים של ניסיונות להונאת ביטוח, כדי לאמן מודל אנו זקוקים לתביעות שהוכח שהן זדוניות. כאלה יש פחות. מצד שני, גם תביעות תמימות לכאורה שכמותן יש הרבה, יכולות בפועל להיות הונאות שאף אחד לא עלה עליהן. כלומר, מצד אחד לא קל לאסוף דוגמאות זדוניות מוכחות, ומצד שני אין ודאות מלאה גם עבור הדוגמאות התמימות הרבות. למרות שיש דרכים שונות להתגבר על כך, זה מסבך את תהליך אימון מודל הסיווג.

כעת עלינו לבחור באילו נתונים נרצה להשתמש מתוך כל תיק תביעה. למשל, נתונים עבור הרכבים שהיו מעורבים בתאונה: כמה רכבים, מאיזה סוג (פרארי, למבורגיני או טרנטה?), שנת יצור וכו'; נתונים אודות הנוסעים שהיו מעורבים בתאונה: גיל, מגדר, מצב משפחתי, סוג פציעה (למשל פנימית, ראש, גב), מי נהג ברכב  ועוד; נתונים אודות הפוליסה: מתי הונפקה, האם מדובר בפוליסה חדשה או בחידוש של פוליסה קיימת וכו'. וכמובן - נתונים אודות האירוע עצמו: באיזה יום התרחש, היכן, באיזה שעה, תוך כמה זמן הודיעו למשטרה, תוך כמה זמן הגיעו הנפגעים לבית החולים, תוך כמה זמן הוגשה התביעה וכו'. אולי זה נשמע לכם כמו הרבה נתונים, אבל זוהי רק ההתחלה של ההקדמה למבוא של תהליך איסוף הנתונים. בכל זאת אנחנו עוסקים בביג דאטה...

יש עוד הרבה נתונים אחרים שניתן לאסוף עבור כל תביעה (תמימה או זדונית). כאן תקף הכלל "כל המרבה הרי זה משובח", כי קשה לקבוע מראש אילו מתוכם אכן יהיו משמעותיים. לאחר שאספנו את כל הנתונים (וביצענו עליהם כל מיני תהליכי "סדר וניקיון" מייגעים), הגיע הזמן לבנות את מודל הסיווג.

משתמשים באחד מתוך עשרות האלגוריתמים שקיימים לסיווג, ונעזרים בו כדי לאמן מודל שיבדיל בין תביעה אמיתית לזדונית. לצורך האימון משתמשים רק בחלק מהדוגמאות שאספנו, בתוספת הידע האם מדובר בהונאה או לא. בחלק האחר של הדוגמאות נשתמש על מנת לבדוק האם המודל אכן מבצע את מלאכתו נאמנה. נזין לו אותן (בלי התשובות הידועות), ונבחן עד כמה הוא צודק בסיווג של כל דוגמה לקבוצה המתאימה לה. למרות שאלו דוגמאות מהעבר, הן חדשות עבור המודל. לפיכך, לימוד ביצועי המודל עליהן מהווה מדד טוב לגבי התוצאות שיתקבלו ממנו בעתיד, בעולם האמיתי. רק לאחר שקיבלנו אחוז דיוק משביע רצון (אם בכלל), אנו מוכנים לעבור לשלב בו נבחן את המודל "בשטח" על תביעות חדשות.

כדור בדולח
ללא קרדיט

אם כל זה נשמע לכם ארוך ומייגע, אתם לגמרי צודקים. זה ארוך ומייגע. וגם לא תמיד מצליח. וזה עוד בלי שתיארתי איך מודדים את איכות המודל, איך מכיילים אותו ומה יכול להשתבש בכל התהליכים האלו (רמז, הרבה דברים). אבל השורה התחתונה היא חיובית.

יש הרבה מאוד יישומים של סיווג שעובדים היטב (ואפילו מצוין), וככל שיש לנו יותר מידע (כלומר, יש לנו ביג דאטה), שיטות הסיווג רק הולכות ומשתפרות. לדוגמא, בעולם החוזי והראייה הממוחשבת שיטות סיווג משמשות לזיהוי פגמים בתהליכי יצור, זיהוי של ספרות (למשל בלוחית הרכב בכבישי אגרה), זיהוי עצמים בתמונה/סרט, זיהוי של פירות בקופה אוטומטית בסופר ועוד. בנקים למשל משתמשים באלגוריתם שמבוסס על נתוני הלווה כדי להחליט מה הסיכוי שיוכל להחזיר את ההלוואה. הזכרתי כבר בכתבה הקודמת עוד יישומים מהעולם המסחרי ומעולם הסייבר ויש עוד יישומים מוצלחים רבים. ובאווירה אופטימית זו נסיים הפעם.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#