ביג דאטה |

הכוח האמיתי של ניתוח נתונים

ביג דאטה (Big Data) ומהפכת המידע מבטיחים לשנות את חיינו – כך הם עובדים ואלו חלק מהיישומים שלהם בחיי היום יום ■ חלק ראשון בסדרה

ד"ר יעקב רימר
אילוסטרציה ביג דאטה
ד"ר יעקב רימר

סדרת הכתבות הבאה תנסה להסביר ולהמחיש מה כוחם האמיתי של ניתוח נתונים, למידת מכונה, כריית מידע או הבאז-וורד הנוכחי – ביג דאטה. לא מדובר בקורס, אלא בניסיון לתת לקורא הממוצע (והלא מקצועי) תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

נפתח בדוגמה. נניח שאת מנהלת של חברה, קראת ושמעת רבות על האיומים בסייבר, ואת מוטרדת האם גונבים לך מידע מהחברה. כן, יש לך אנטי וירוס על המחשבים בחברה, אבל את נבונה ומעודכנת, ומבינה שזה מספיק כמו לתלות שיני שום על הדלת. מצד שני, יש הרבה מאוד מידע שזורם ברשתות התקשורת ונאגר על המחשבים (כלומר, ביג דאטה) ואת חושבת שיש מה לעשות איתו. גם בזה את צודקת. אפשר כמובן לרכוש אחד או יותר משלל מוצרי הגנת הסייבר שנמכרים כיום, אבל לא בזה אנחנו עוסקים.

נניח שהזמנת מומחיות ביג דאטה כדי לנתח את המידע שיש על המחשבים בחברה שלך, למשל קבצי לוגים למיניהם שמתעדים תנועות ופעולות שבוצעו במחשבים. הן יכולות לחפש עקבות לאיומי סייבר מוכרים (ולצערנו סביר שגם ימצאו), אבל את כאמור נבונה, ומוטרדת האם קיימים גם איומים שאינם מוכרים. כאן שיטות שונות של למידת מכונה(Machine Learning) שנקראות "למידה בלתי מונחית" (Unsupervised Learning) יכולות לסייע. מדובר מגוון שיטות, כאשר באופן כללי ניתן לומר שהן מנסות לארגן את המידע הקיים בצורה מועילה, או למצוא בו תופעות מעניינות. נמחיש את הכוונה.

נועה היא עובדת חרוצה בחברה שלך, והיא עובדת שעות רבות, במשרד או מהבית. אם נבחן את לוג הפעולות שלה, נראה שהיא מבצעת פעולות רבות במהלך ימי העבודה הרגילים, בשעות 9:00-18:30 (כנראה שאז היא נוסעת הביתה), ובערב בין השעות 20:00-22:30 (כנראה שאין לה חיים). אבל פתאום, החל מלפני יומיים, מופיעות פעולות גם סביב 19:00 ולפעמים גם באמצע הלילה. במילים אחרות, לנועה יש שגרת עבודה יומית קבועה, ולפני יומיים החלו להופיע חריגות מהשגרה הזו. כבר אמרנו שלנועה אין חיים, ואולי היא החליטה לקחת את זה לקצה. ייתכן גם שהיא בנסיעה לחו"ל מטעם החברה ולכן שעות העבודה שלה השתנו. אבל בירור מהיר עם נועה לימד שהיא עדיין (לצערה?) בארץ, ב-19:00 היא עדיין (לצערה!) תקועה בפקקים, ובלילה אפילו מורעלת שכמותה ישנה. נשמע חשוד...

זו היתה דוגמה פשוטה לתהליך שנקרא גילוי אנומליות (Anomaly Detection), במקרה הזה על פי שעות הפעילות של העובד (ציר הזמן). התהליך לומד את שגרת העבודה של כל עובד מתוך המידע שנאסף בעבר (לוגים) וללא צורך בהנחיה או דוגמאות, הוא מסוגל להצביע על חריגות מהשגרה (כלומר אנומליות). הדגמתי כאן חריגות משעות הפעילות, אבל אפשר לבחון בקלות דברים נוספים, כמו סוג הפעולות שהעובד מבצע בשגרה, עם אילו מחשבים הוא נוהג לעבוד ועוד.

צילום: בלומברג

כרגיל בלמידת מכונה וביג דאטה, הדברים אינם פשוטים. ראשית, כפי שכבר המחשתי לעיל, אולי נועה אכן שינתה את השגרה שלה. למשל טסה לחו"ל, או מצאה לה חיים סוף-סוף. הגילוי של החריגה מחשיד בלבד וללא בירור נוסף הוא אינו מבטיח שאכן יש בעיה. ואם יש הרבה חריגות מהשגרה, זה כבר עלול להיות מתיש למדי. בנוסף, כדי לגלות חריגות משגרה צריכה להתקיים קודם כל שגרה. זה לא תמיד קיים. בהמשך לדוגמה הפשוטה שהצגתי, הכירו את דנה. דנה היא בחורה מאוד לא שגרתית, היא סטודנטית למשחק ולפעמים גם ממלצרת. היא עובדת אצלך ברבע משרה ומגיעה למשרד, או מבצעת פעולות מהבית, רק כשמזדמן לה. את מעסיקה אותה כי היא מוכשרת מאוד ושעת עבודה של דנה שקולה ל-3 שעות עבודה של נועה המשקיענית. אבל לחפש אצל דנה חריגות משגרה זה כבר סיוט אחר לגמרי...

ככלל, אם הנתונים נובעים מתהליכים אוטומטיים, אלגוריתמים לגילוי אנומליות יעבדו טוב יותר. לשיטות אלו יש הצלחה יפה באיתור, ואף בחיזוי מראש, של תקלות בציוד תעשייתי או מכשור אחר, שנוטה לפעול בצורה שגרתית למדי. מסתבר אבל, שגם למרבית בני האנוש יש הרגלים קבועים ולכן השיטות האלו יעבדו בדרך כלל בצורה טובה גם עבור התנהגות אנושית. במקרה זה הם יכונו לעיתים אלגוריתמים (או פרופילים) התנהגותיים (או Behavioral Analytics).

ד"ר יעקב רימר הוא יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ואנליטיקה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה

ד"ר יעקב רימרצילום: ללא קרדיט

לחצו על הפעמון לעדכונים בנושא:

כתבות מומלצות

מטוס של וויז אייר. החברה הציעה פיצוי של 600 יורו

אל על מובילה בביטולים, המטוס של וויז אייר "קיבל מכת ברק": קיץ כאוטי בנתב"ג

רכבת תחתית בספרד. הקמת המטרו בישראל מוערכת בעלות של 150 מיליארד שקל

מיליארדים מהפקעות קרקע, סמכויות אגרסיביות, ופוליטיקה קטנה: המלחמה על חוק המטרו

סטודנטים באוניברסיטה העברית בירושלים. שיעורי התעסוקה עולים בהתמדה עם העלייה ברמת ההשכלה

איך מטפסים לעשירון השכר העליון — ומי מצא דרך עקיפה כדי להגיע אליו

גמר אקס פקטור. הוחלט שלא תשמש יותר לבחירת הנציג לאירוויזיון

"הכל זה הוא": שורת עזיבות ורייטינג צונח - למה רשת מובסת בקרב מול קשת?

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

כספומט ביטקוין ברומניה. רשתות בלוקצ'יין שיצליחו לשרוד את התקופה הנוכחית - ייתכן שיזכו בכל הקופה

המשבר בקריפטו נכנס לשלב הבא: מלחמת כל בכל

עומסים בנתב"ג

מבחינת חברות התעופה, השאלה אם תגיעו ליעד עם המזוודה היא "בעדיפות אחרונה"