איך מאתרים מחט בערמה של שחת?

ישנם יישומים רבים לאלגוריתמים של ניתוח ביג דאטה אך ישנו תחום אחד בו ביג דאטה עדיין אינו יעיל והוא זיהוי ומניעה של פעולות טרור

יעקב רימר
ד"ר יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקיםכתוב תגובה
צילום: Bloomberg

בפוסטים קודמים סקרתי חלק משיטות למידת המכונה והצגתי יישומים מוצלחים, לצד אתגרים בדרך אל ההצלחה. הפעם אתמקד בהתלהבות היתר שלצערי מאפיינת חלק מהעוסקים בנושא. יש פתגם ידוע שאומר כי "לתינוק עם פטיש, כל העולם נראה כמו מסמר".

באופן דומה, אנשים שהתחנכו אל תוך עולם הביג דאטה סבורים לא פעם שניתן לפתור כל בעיה בשיטות למידת מכונה. ואם לא הצלחנו בניסיון ראשון, ננקוט בכלל הידוע "מה שלא עובד בכוח, עובד בעוד יותר כוח", וננסה שוב ושוב. זאת טעות, בייחוד כאשר לא מקדישים מספיק זמן ללמוד את עולם הבעיה. רמזתי על כך בפוסטים קודמים.

התקופה הדיגיטלית בה אנו חיים מאופיינת בשפע רב של נתונים. קל היום יותר מאי פעם לאסוף נתונים כמעט על כל דבר. יש לכך יתרונות רבים מאוד, לצד חסרונות בולטים, כגון אובדן הפרטיות והסכנה לניצול לרעה של ידע. זוהי בראש ובראשונה שאלה חברתית-מוסרית, שאולי אעסוק בה בעתיד. אולם הפעם אני רוצה להצביע על בעיה אחרת. חוסר הבנה של אופי הבעיה שלפנינו עלול להוביל לכישלון גורף, או לגרימת נזקים גדולים לעוסקים במלאכה, ולצערנו לעיתים גם לאחרים. אסביר למה הכוונה.

ברוס שנייר, גורו טכנולוגיה מפורסם, פרסם לפני כעשור מאמר שכותרתו "מדוע כריית נתונים לא תעצור טרור". שוב, מבלי להיכנס לשאלות המוסריות אודות "מדינת משטרה", סכנת "האח גדול", או לדיון על הסיבות לטרור והדרך הנכונה למניעתו, מסתתרת כאן בעיה יסודית בהבנת עולם הביג דאטה. הנושא אותו אמחיש הפעם הוא ההבדל בין בעיית סיווג או בעיות באופי דומה (שמתאימות ללמידת מכונה), לבין מציאת "מחט בערימה של שחת" שדורשת גישות אחרות לפתרון.

שוטרים צרפתים בפטרול בשאנז אליזה אחרי פיגועי נובמבר 2015
שוטרים צרפתים בפטרול בשאנז אליזה אחרי פיגועי נובמבר 2015צילום: אי־פי

ביג דאטה כאמצעי הגנה מפני פעילות טרור והונאות אשראי

בעקבות המאמר של ברוס שנייר, נשווה בין שתי בעיות בוערות: הונאות בכרטיסי אשראי וטרור. להונאות בכרטיסי אשראי יש מספר דפוסים מוכרים. מעבר לכך, לצערנו הן נפוצות מאוד. חברות האשראי אינן נוטות לנדב נתונים כמובן, אבל יש הערכות כי כ-1% מכלל כרטיסי האשראי נגנבים או מעורבים בהונאות מידי שנה. זה הרבה. פעולות טרור לעומת זאת נדירות יותר (אפילו במציאות שלנו בישראל) ויש לצערנו הרבה יותר דרכים יצירתיות (במובן המעוות כמובן) לבצע פעילות טרור. החל מסכין, מספרים, אקדח, טרקטור או מכונית ועד מטוסים שטסים אל תוך מגדלים.

כל זה אומר שקשה הרבה יותר לזהות פעילות של טרוריסטים מתוך כלל הפעולות האנושיות בעולם, מאשר להצביע על עסקות אשראי מפוקפקות מתוך כלל העסקות שנעשות בכרטיסי אשראי. המשמעות היא שמספר הפעמים שהמודל שנבנה יטעה ויצביע על פעולות או אנשים תמימים כעל טרוריסטים היא גבוהה מאוד, עד שלא נוכל להשתמש בתוצאות. כדי להסביר את הנקודה הזו לעומק צריך להסביר קודם כיצד מודדים איכות של מודלים בעולם הביג דאטה. בכוונתי לעשות זאת באחד הפוסטים הבאים, בשלב זה אסתפק באמירה הזו.

הבדל קריטי נוסף בין שתי הבעיות הוא מחיר הטעות. סיווג שגוי של עסקת אשראי תמימה כמפוקפקת עלול להביא לשיחת בירור מיותרת עם הלקוח. מדובר במטרד, אולם מטרד נסבל. לו אני לקוח ואקבל שיחת טלפון כזו פעם בכמה שנים, לא רק שלא ארגיש רע, אלא אולי אף ארגיש שיש מישהו ששומר על כספי. לחברת האשראי מדובר בשיחות ובזמן מבוזבז, אבל עדיין נסבל ביותר אל מול האלטרנטיבה של אובדן כסף רב שנגנב.

הצבעה שגויה על אזרח תמים כעל מחבל פוטנציאלי היא סיפור אחר לגמרי. ראשית, אלגוריתם ביג דאטה מצוין ככל שיהיה, אינו עילה מספקת כדי לעצור אנשים (לפחות כך אני מקווה). נדרש מן הסתם תהליך חקירה ארוך ועתיר משאבים. ו"הלקוח" במקרה הזה כנראה לא ישמח במיוחד אם ידפקו לו בדלת בשלש לפנות בוקר ויעצרו אותו. ולאור העובדה (שהזכרתי לעיל ולא הסברתי) שמודל למניעת טרור בהכרח יטעה לאין שיעור יותר פעמים מאשר מודל למניעת הונאות אשראי, מדובר בבעיה חמורה ביותר שבעצם הופכת את למידת המכונה לבלתי יעילה בעליל.

למה? כי כפי שפתחתי ואמרתי, מציאת טרוריסט שקולה למציאת "מחט בערימת שחת", או כפי שהתבטא ראש השב"כ בעבר יובל דיסקין "למצוא מחט בערימת מחט". נדרשים חשיבה ופתרונות אחרים מאשר השיטות הקלאסיות ללמידת מכונה. לסיכום, ניתן לעשות דברים נפלאים עם ביג דאטה, אולם גם כאשר יש ברשותך פטיש מצוין, כדאי לזכור שבעולם יש גם ברגים, לא רק מסמרים.

יעקב רימר

ד"ר יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker