הכוח האמיתי של ניתוח נתונים

ביג דאטה (Big Data) ומהפכת המידע מבטיחים לשנות את חיינו – כך הם עובדים ואלו חלק מהיישומים שלהם בחיי היום יום

יעקב רימר
ד"ר יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
יעקב רימר
ד"ר יעקב רימר

בלוג זה ינסה להסביר ולהמחיש מה כוחם האמיתי של ניתוח נתונים, למידת מכונה, כריית מידע או הבאז-וורד הנוכחי – ביג דאטה. לא מדובר בקורס, אלא בניסיון לתת לקורא הממוצע (והלא מקצועי) תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

נפתח בדוגמה. נניח שאת מנהלת של חברה, קראת ושמעת רבות על האיומים בסייבר, ואת מוטרדת האם גונבים לך מידע מהחברה. כן, יש לך אנטי וירוס על המחשבים בחברה, אבל את נבונה ומעודכנת, ומבינה שזה מספיק כמו לתלות שיני שום על הדלת. מצד שני, יש הרבה מאוד מידע שזורם ברשתות התקשורת ונאגר על המחשבים (כלומר, ביג דאטה) ואת חושבת שיש מה לעשות איתו. גם בזה את צודקת. אפשר כמובן לרכוש אחד או יותר משלל מוצרי הגנת הסייבר שנמכרים כיום, אבל לא בזה אנחנו עוסקים.

נניח שהזמנת מומחיות ביג דאטה כדי לנתח את המידע שיש על המחשבים בחברה שלך, למשל קבצי לוגים למיניהם שמתעדים תנועות ופעולות שבוצעו במחשבים. הן יכולות לחפש עקבות לאיומי סייבר מוכרים (ולצערנו סביר שגם ימצאו), אבל את כאמור נבונה, ומוטרדת האם קיימים גם איומים שאינם מוכרים. כאן שיטות שונות של למידת מכונה(Machine Learning)  שנקראות "למידה בלתי מונחית" (Unsupervised Learning) יכולות לסייע. מדובר מגוון שיטות, כאשר באופן כללי ניתן לומר שהן מנסות לארגן את המידע הקיים בצורה מועילה, או למצוא בו תופעות מעניינות. נמחיש את הכוונה.

נועה היא עובדת חרוצה בחברה שלך, והיא עובדת שעות רבות, במשרד או מהבית. אם נבחן את לוג הפעולות שלה, נראה שהיא מבצעת פעולות רבות במהלך ימי העבודה הרגילים, בשעות 9:00-18:30 (כנראה שאז היא נוסעת הביתה), ובערב בין השעות 20:00-22:30 (כנראה שאין לה חיים). אבל פתאום, החל מלפני יומיים, מופיעות פעולות גם סביב 19:00 ולפעמים גם באמצע הלילה. במילים אחרות, לנועה יש שגרת עבודה יומית קבועה, ולפני יומיים החלו להופיע חריגות מהשגרה הזו. כבר אמרנו שלנועה אין חיים, ואולי היא החליטה לקחת את זה לקצה. ייתכן גם שהיא בנסיעה לחו"ל מטעם החברה ולכן שעות העבודה שלה השתנו. אבל בירור מהיר עם נועה לימד שהיא עדיין (לצערה?) בארץ, ב-19:00 היא עדיין (לצערה!) תקועה בפקקים, ובלילה אפילו מורעלת שכמותה ישנה. נשמע חשוד...

זו היתה דוגמה פשוטה לתהליך שנקרא גילוי אנומליות (Anomaly Detection), במקרה הזה על פי שעות הפעילות של העובד (ציר הזמן). התהליך לומד את שגרת העבודה של כל עובד מתוך המידע שנאסף בעבר (לוגים) וללא צורך בהנחיה או דוגמאות, הוא מסוגל להצביע על חריגות מהשגרה (כלומר אנומליות). הדגמתי כאן חריגות משעות הפעילות, אבל אפשר לבחון בקלות דברים נוספים, כמו סוג הפעולות שהעובד מבצע בשגרה, עם אילו מחשבים הוא נוהג לעבוד ועוד.

צילום: בלומברג

כרגיל בלמידת מכונה וביג דאטה, הדברים אינם פשוטים. ראשית, כפי שכבר המחשתי לעיל, אולי נועה אכן שינתה את השגרה שלה. למשל טסה לחו"ל, או מצאה לה חיים סוף-סוף. הגילוי של החריגה מחשיד בלבד וללא בירור נוסף הוא אינו מבטיח שאכן יש בעיה. ואם יש הרבה חריגות מהשגרה, זה כבר עלול להיות מתיש למדי. בנוסף, כדי לגלות חריגות משגרה צריכה להתקיים קודם כל שגרה. זה לא תמיד קיים. בהמשך לדוגמה הפשוטה שהצגתי, הכירו את דנה. דנה היא בחורה מאוד לא שגרתית, היא סטודנטית למשחק ולפעמים גם ממלצרת. היא עובדת אצלך ברבע משרה ומגיעה למשרד, או מבצעת פעולות מהבית, רק כשמזדמן לה. את מעסיקה אותה כי היא מוכשרת מאוד ושעת עבודה של דנה שקולה ל-3 שעות עבודה של נועה המשקיענית. אבל לחפש אצל דנה חריגות משגרה זה כבר סיוט אחר לגמרי...

ככלל, אם הנתונים נובעים מתהליכים אוטומטיים, אלגוריתמים לגילוי אנומליות יעבדו טוב יותר. לשיטות אלו יש הצלחה יפה באיתור, ואף בחיזוי מראש, של תקלות בציוד תעשייתי או מכשור אחר, שנוטה לפעול בצורה שגרתית למדי. מסתבר אבל, שגם למרבית בני האנוש יש הרגלים קבועים ולכן השיטות האלו יעבדו בדרך כלל בצורה טובה גם עבור התנהגות אנושית. במקרה זה הם יכונו לעיתים אלגוריתמים (או פרופילים) התנהגותיים (או Behavioral Analytics).

יעקב רימר

ד"ר יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker