הכוח האמיתי של ניתוח נתונים - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

הכוח האמיתי של ניתוח נתונים

ביג דאטה (Big Data) ומהפכת המידע מבטיחים לשנות את חיינו – כך הם עובדים ואלו חלק מהיישומים שלהם בחיי היום יום

בלוג זה ינסה להסביר ולהמחיש מה כוחם האמיתי של ניתוח נתונים, למידת מכונה, כריית מידע או הבאז-וורד הנוכחי – ביג דאטה. לא מדובר בקורס, אלא בניסיון לתת לקורא הממוצע (והלא מקצועי) תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

נפתח בדוגמה. נניח שאת מנהלת של חברה, קראת ושמעת רבות על האיומים בסייבר, ואת מוטרדת האם גונבים לך מידע מהחברה. כן, יש לך אנטי וירוס על המחשבים בחברה, אבל את נבונה ומעודכנת, ומבינה שזה מספיק כמו לתלות שיני שום על הדלת. מצד שני, יש הרבה מאוד מידע שזורם ברשתות התקשורת ונאגר על המחשבים (כלומר, ביג דאטה) ואת חושבת שיש מה לעשות איתו. גם בזה את צודקת. אפשר כמובן לרכוש אחד או יותר משלל מוצרי הגנת הסייבר שנמכרים כיום, אבל לא בזה אנחנו עוסקים.

נניח שהזמנת מומחיות ביג דאטה כדי לנתח את המידע שיש על המחשבים בחברה שלך, למשל קבצי לוגים למיניהם שמתעדים תנועות ופעולות שבוצעו במחשבים. הן יכולות לחפש עקבות לאיומי סייבר מוכרים (ולצערנו סביר שגם ימצאו), אבל את כאמור נבונה, ומוטרדת האם קיימים גם איומים שאינם מוכרים. כאן שיטות שונות של למידת מכונה(Machine Learning)  שנקראות "למידה בלתי מונחית" (Unsupervised Learning) יכולות לסייע. מדובר מגוון שיטות, כאשר באופן כללי ניתן לומר שהן מנסות לארגן את המידע הקיים בצורה מועילה, או למצוא בו תופעות מעניינות. נמחיש את הכוונה.

נועה היא עובדת חרוצה בחברה שלך, והיא עובדת שעות רבות, במשרד או מהבית. אם נבחן את לוג הפעולות שלה, נראה שהיא מבצעת פעולות רבות במהלך ימי העבודה הרגילים, בשעות 9:00-18:30 (כנראה שאז היא נוסעת הביתה), ובערב בין השעות 20:00-22:30 (כנראה שאין לה חיים). אבל פתאום, החל מלפני יומיים, מופיעות פעולות גם סביב 19:00 ולפעמים גם באמצע הלילה. במילים אחרות, לנועה יש שגרת עבודה יומית קבועה, ולפני יומיים החלו להופיע חריגות מהשגרה הזו. כבר אמרנו שלנועה אין חיים, ואולי היא החליטה לקחת את זה לקצה. ייתכן גם שהיא בנסיעה לחו"ל מטעם החברה ולכן שעות העבודה שלה השתנו. אבל בירור מהיר עם נועה לימד שהיא עדיין (לצערה?) בארץ, ב-19:00 היא עדיין (לצערה!) תקועה בפקקים, ובלילה אפילו מורעלת שכמותה ישנה. נשמע חשוד...

זו היתה דוגמה פשוטה לתהליך שנקרא גילוי אנומליות (Anomaly Detection), במקרה הזה על פי שעות הפעילות של העובד (ציר הזמן). התהליך לומד את שגרת העבודה של כל עובד מתוך המידע שנאסף בעבר (לוגים) וללא צורך בהנחיה או דוגמאות, הוא מסוגל להצביע על חריגות מהשגרה (כלומר אנומליות). הדגמתי כאן חריגות משעות הפעילות, אבל אפשר לבחון בקלות דברים נוספים, כמו סוג הפעולות שהעובד מבצע בשגרה, עם אילו מחשבים הוא נוהג לעבוד ועוד.

אישה ליד מחשבים של אפל
בלומברג

כרגיל בלמידת מכונה וביג דאטה, הדברים אינם פשוטים. ראשית, כפי שכבר המחשתי לעיל, אולי נועה אכן שינתה את השגרה שלה. למשל טסה לחו"ל, או מצאה לה חיים סוף-סוף. הגילוי של החריגה מחשיד בלבד וללא בירור נוסף הוא אינו מבטיח שאכן יש בעיה. ואם יש הרבה חריגות מהשגרה, זה כבר עלול להיות מתיש למדי. בנוסף, כדי לגלות חריגות משגרה צריכה להתקיים קודם כל שגרה. זה לא תמיד קיים. בהמשך לדוגמה הפשוטה שהצגתי, הכירו את דנה. דנה היא בחורה מאוד לא שגרתית, היא סטודנטית למשחק ולפעמים גם ממלצרת. היא עובדת אצלך ברבע משרה ומגיעה למשרד, או מבצעת פעולות מהבית, רק כשמזדמן לה. את מעסיקה אותה כי היא מוכשרת מאוד ושעת עבודה של דנה שקולה ל-3 שעות עבודה של נועה המשקיענית. אבל לחפש אצל דנה חריגות משגרה זה כבר סיוט אחר לגמרי...

ככלל, אם הנתונים נובעים מתהליכים אוטומטיים, אלגוריתמים לגילוי אנומליות יעבדו טוב יותר. לשיטות אלו יש הצלחה יפה באיתור, ואף בחיזוי מראש, של תקלות בציוד תעשייתי או מכשור אחר, שנוטה לפעול בצורה שגרתית למדי. מסתבר אבל, שגם למרבית בני האנוש יש הרגלים קבועים ולכן השיטות האלו יעבדו בדרך כלל בצורה טובה גם עבור התנהגות אנושית. במקרה זה הם יכונו לעיתים אלגוריתמים (או פרופילים) התנהגותיים (או Behavioral Analytics).



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#