מיסטר ביג ומר דאטה

נא להתנהג בהתאם: על אלגוריתמים התנהגותיים

אלגוריתמים התנהגותיים הוא מונח שיווקי לניתוח של נתוני אירועים ■ מהם נתונים דינמיים לעומת נתונים סטטיים?

בפוסט הפותח של בלוג זה עסקתי בנושא של אלגוריתמים לגילוי אנומליות. ציינתי בסופו שבהקשר של ניתוח הרגלים אנושיים הם יכונו לעיתים גם אלגוריתמים התנהגותיים (או Behavioral Analytics). בשנים האחרות זהו באזז-וורד חזק בעולמות שונים, לטעמי יותר בפן השיווקי. אסביר.

אפשר לחלק באופן גס את הנתונים בעולם הביג-דאטה לשתי קבוצות: סטטיים ודינמיים. בנתונים סטטיים הכוונה בדרך כלל לנתונים שמאפיינים (או מתארים) ישות מסוימת ועונים על השאלה "מי היא". אם מדובר באדם אז הכוונה למשל לשמו, גילו, שנת לידתו, מספר תעודת הזהות שלו וכדומה. בעולם הסייבר נתאר קובץ במחשב לפי הסוג שלו, שמו, אורכו ומאפיינים אחרים שנוכל למצוא עליו. לעומת זאת נתונים דינמיים בדרך כלל מאפיינים אירועים שהתרחשו בנקודת זמן מסוימת וקשורים לישויות האלו. הם עונים למשל על השאלה "מה הם עושים".

בית "האח הגדול"
עמית גירון
להמשך הפוסט

ביג דאטה בשירות הנאצים: השימוש האפל במאגרי מידע

שיטות עיבוד נתונים וביג-דאטה עלולים לשרת גם את האיומים שבמעשים ■ לציון יום הקדיש הכללי לנרצחי השואה שחל השבוע - פוסט אישי על יישומים של מתודות לעיבוד וניהול נתונים ששירתו את הנאצים ואיפשרו להם לייעל את מכונת ההשמדה

פוסט זה נכתב לציון יום הקדיש הכללי לנרצחי השואה שחל השבוע. הפוסט שונה מהאחרים ובנימה אישית. בפוסט קודם כבר עסקתי באחד הצדדים האפלים של עולם הביג-דאטה – אובדן הפרטיות. אך כנראה שהשימוש הנורא מכל שנעשה בעיבוד נתונים ממוכן הינו מערכות הנתונים של הנאצים בתקופת השואה. 

התוודעתי לנושא בעקבות מחקר אישי שערכתי אודות קורותיו של אבי זלמן רימר ז"ל כנער בשואה. הוא עבר מספר מחנות החל מאביב 1944 ועד לשחרור מחנה טֶרֶזְיֶינְשְטָט באביב 1945. להפתעתי, גיליתי כי ניתן לאתר תיעוד אישי ממחנות הנאצים וכעת בידי כ-15 מסמכים מארבעה מחנות שונים. התיעוד המרגש ביותר הוא כרטיס האסיר האישי של אבי ממחנה בוכנוואלד שמכיל את תמונתו בעת הגיעו למחנה (תמונה 1). אין מילים שמסוגלות לתאר את ההתרגשות שחוויתי כשקיבלתי לידי את המסמך הזה.

תמונה 1: כרטיס האסיר של אבי זלמן רימר ז"ל מבוכנוואלד
להמשך הפוסט

אמור לי מי הם חבריך ואומר לך מי אתה

ניתוח רשתות חברתיות יכול לשמש ליישומים שונים ■ למרות שניתוח קשרים הוא כלי חזק ומועיל, בדרך כלל נדרש גם מידע משלים

כפי שציינתי בפוסט הקודם, אחד התחומים הפופולריים בניתוח קשרים (Link Analysis) הוא ניתוח רשתות חברתיות (Social Network Analysis). למשל, כל מי שחבר ברשת חברתית כלשהיא יודע כי הרשת מציעה לו כל הזמן חברים חדשים.

כיצד היא עושה את זה? יש שיטות שונות למצוא קשרים "חסרים", כלומר להעריך מי עוד עשוי להיות חבר שלך. להלן שתי דוגמות פשוטות. נניח שלנועה יש 6 חברים, אחד מהם הוא יוסי. ליוסי יש 7 חברים. אחת מהם היא כאמור נועה, ועוד 6 אחרים, שמתוכם 5 הם בדיוק אותם החברים של נועה (תמונה 1). במקרה כזה יש סבירות גבוהה שגם נטע, החברה הנוספת של יוסי, מכירה את נועה ולכן כדאי להציע אותה לנועה.

אני והחבר'ה
יח"צ
להמשך הפוסט

הֲיֵלְכוּ שְׁנַיִם יַחְדָּו בִּלְתִּי אִם נוֹעָדוּ – על ניתוח קשרים

ניתוח קשרים הוא אחד התחומים המרתקים בעולם הביג-דאטה

עמוס הנביא שואל "הֲיֵלְכוּ שְׁנַיִם יַחְדָּו בִּלְתִּי אִם נוֹעָדוּ". אם ראינו שני אנשים שהולכים יחדיו, סביר יותר שהם קבעו להיפגש, מאשר שהם נפגשו באקראי. כלומר, יש ביניהם קשר. על ההיגיון הפשוט הזה מבוססת היכולת שלנו לחקור פשעים חמורים. נניח שנמצאה גופת אישה שנרצחה (לא עלינו). קיימת אפשרות שמדובר ברוצח מזדמן, אולם ניסיון העבר מלמד שיש סבירות גבוהה יותר שמדובר ברוצח מ"המעגל הראשון" של המכרים שלה. במקרים רבים לצערנו קרוב משפחה מדרגה ראשונה כמו בן-זוג, אח או בן.

מה הקשר של כל זה לביג-דאטה? שאלה מצוינת. זאת דוגמה מזעזעת מעט אך פשוטה לניתוח קשרים (Link Analysis), אחד התחומים המרתקים בעולם הביג-דאטה. כאשר מדובר בניתוח של קשרים בין אנשים, בייחוד בעידן הרשתות החברתיות, מקובל לכנות זאת גם ניתוח רשתות חברתיות (Social Network Analysis). יש לתחום זה יישומים רבים, החל ממחקר פשעים, סיכול טרור וכדומה, ועד לתחום השיווק והפרסום הוויראלי.

"טיטאניק"
/אי־פי
להמשך הפוסט

המקל והגזר של למידת מכונה באמצעות חיזוקים

בשנים האחרונות יש הרבה באזז סביב "למידה באמצעות חיזוקים" ■ עד כמה היא אכן רלוונטית לבעיות הלמידה שלכם?

אומרים שכל יום לומדים משהו חדש. האם זה נכון גם ללמידת מכונה? תלוי בגישה. הקדשתי מספר פוסטים בבלוג להסבר של "למידה מונחית" (Supervised Learning) מתוך דוגמות שהתוצאה עבורן ידועה. בגישה הזו, לא נלמד שום דבר חדש כל עוד לא נאסוף דוגמות חדשות. אבל יש גם גישה אחרת שנקראת "למידה באמצעות חיזוקים" (Reinforcement Learning). בגישה הזו, המכונה לומדת באופן רציף באמצעות ניסוי וטעיה על פי משוב (פידבק) שמתקבל מה"עולם".

הדוגמה הקלאסית היא רובוט (למשל שואב רובוטי) שלומד כיצד לנוע בתוך דירה. לרובוט יש חיישנים שמדווחים לו מתי הוא מתקרב או מתנגש במכשול. אין צורך לתת לו הוראות מראש והוא גם יודע להסתגל לסביבה משתנה כמו הזזה של רהיטים בחדר. מהדוגמה הזו אפשר להבין שכדי שנוכל להשתמש בלמידה מתוך חיזוקים צריכים להתקיים שני תנאים חשובים: ראשית, צריכה להיות לנו יכולת לקבל משוב האם החלטה מסוימת היא טובה יותר מהחלטה אחרת. בדוגמה של הרובוט, להעדיף להתקדם למקום פנוי ולא למקום חסום. שנית, נדרשת יכולת לתרגם את המשוב שקיבלנו לפעולה שנרצה לבצע כדי לקדם אותנו למטרה שלנו. למשל, במידה והרובוט נתקל במכשול, הוא ינסה לפנות לכיוון פנוי או לחזור על עקביו.

גד גניר
להמשך הפוסט

עברית שפה קשה

יש ערך רב בניתוח של טקסטים מסוגים שונים ■ יש יישומים שימושיים רבים לניתוח טקסט. צריך רק לוודא שהם מתאימים לשפה שמופיעה בטקסטים שלכם

בפוסט הקודם ציינתי דוגמה אחת ליישום של ניתוח טקסטים לטובת "זיהוי מחבר" (authorship identification). קיימים עוד שימושים רבים מאוד לניתוח טקסטים. בפוסט הזה אזכיר עוד כמה דוגמות ליישומים, מכיוון שכזכור מטרת הבלוג לנסות להמחיש לקוראים ולקוראות מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

בפוסט בו עסקתי בשיטת האשכול ציינתי כי חלוקה של טקסטים לקבוצות מאפשרת לקבל תובנות חדשות מעצם החלוקה. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אשכול על המילים שבתשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. חלוקה באמצעות אשכול תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

תשבץ היגיון מס' 1666
להמשך הפוסט

מי כתב את התורה?

מסתבר שלא תמיד חייבים להבין את משמעות הדברים כדי לקבל תוצאות. גישות שונות בלמידת מכונה לניתוח טקסטים - על קצה המזלג

מי כתב את התורה? אלוהים יודע. את כל השאר אפשר לבדוק. מסתבר שקיימת "טביעת אצבע" אופיינית לסגנון הכתיבה של אדם, המאפשרת לזהות טקסטים שנכתבו על ידו ברמת ודאות מסוימת. זהו תחום מחקר הנקרא "זיהוי מחבר" (authorship identification) והוא מבוצע בשיטות למידת מכונה שונות לניתוח תוכן הטקסט. נבהיר שהניתוח אינו תלוי כלל בכתב ידו של המחבר, אלא רק בתוכן של הטקסט, גם כאשר הטקסט מודפס.

האם באמת אפשר להבדיל בין כתבים של אנשים שונים? בהחלט כן. לכל אדם יש סגנון, מילים וצירופים בהם הוא משתמש יותר או פחות מאחרים. הדוגמה המועדפת עליי היא סלידתו של דוד בן-גוריון ממילת היחס "את". למשל, אם הוא במקרה השאיל לכם את אחד מהספרים שלו, לא היה אומר לכם "אני מבקש את הספר בחזרה", אלא "אני מבקש הספר בחזרה". מכיוון ש"את" היא מילה נפוצה (מופיעה כאן 24 פעמים מתוך 659 מילים), היעדרה הוא סימן זיהוי מצוין לכתבי בן-גוריון. את פשוטי העם, ביחוד את אלו שאינם סולדים או מנסים להילחם במילים שונות, מעט יותר קשה לזהות. אבל כאמור אפשרי.

ספר תורה בשפה האמהרית
להמשך הפוסט

בין אפס לאחד: האם המחשב יכול למצוא לנו את הזיווג המושלם?

כמו כל שיטת למידה אחרת, למידה עמוקה אינה מתכון קסמים לכל דבר ■ על רשתות נוירונים, למידה עמוקה ומה שביניהן – חלק ב'

בפוסט הקודם הסברתי על רגל אחת מהי "למידה עמוקה" (Deep Learning). מדובר בקאמבק מרשים של רשתות הנוירונים המלאכותיות שכיכבו בסוף המילניום הקודם. ציינתי שיש יתרון משמעותי בשימוש בפרמטרים רבים בלמידה עמוקה, אבל זה מאריך מאוד את משך הלמידה של הרשת. הפוסט הסתיים באמירה שצריך לתת את הקרדיט לקאמבק של רשתות הנוירונים לשיפור המשמעותי בטכנולוגית המחשוב, אבל לא רק.

יש עוד מהפכה דרמטית שהתרחשה בין שנות ה-80 להיום – האינטרנט. אני מזכיר שוב שכדי ללמוד מתוך דוגמות, צריך דוגמות רלוונטית, והרבה. אם חוקר בשנות ה-80 רצה לבנות רשת נוירונים שתדע ללמוד להבדיל בין תמונות של כלבים לחתולים, הוא היה צריך לצלם תמונות בעצמו או לאסוף תמונות מתוך ספרים. היום צריך רק להקליד כמה מילים בגוגל. כולם הרי יודעים שרשת האינטרנט נוצרה בעיקר כדי לשתף תמונות וסרטים של חתולים. וברצינות, ניתן להשיג כיום מאגרי דוגמות בתחומים רבים ומגוונים, חלקם באיכות גבוהה מאוד, שאפילו לא ניתן היה לחלום עליהם לפני כ-40 שנה.

תמונת נישואין 2
Getty Images IL
להמשך הפוסט

מה שיותר עמוק יותר חכם?

כל מי שלא אמר ביג-דאטה, בינה מלאכותית ולמידה עמוקה, לא יצא ידי חובה ■ על רשתות נוירונים, למידה עמוקה ומה שביניהן – חלק א'

בפוסט קודם ציינתי שיש שיטות ביג-דאטה שמסוגלות ללמוד ולזהות לבד מאפיינים (או תכונות) שיעזרו ללמידה, גם כשאדם מתקשה למצוא אותן. כלומר, לבחור בעצמן את התכונות שאנו מגדירים עבור כל פריט בנתונים שלנו. שיטה כזו היא למשל "מלכת הכיתה החדשה שנקראת "למידה עמוקה" (Deep Learning).

למידה עמוקה גורמת היום להתרגשות רבה בקרב אנשי ביג-דאטה ובצדק. התוצאות שלה במספר תחומים מצוינות ומהוות פריצת דרך משמעותית. למשל בתחומים הקשורים לראיה ממוחשבת או זיהוי תמונות. יישום מלהיב ומוצלח אחר הוא הניצחון של המכונה את האלופים האנושיים במשחק גו. אחרי תבוסת האדם למכונה במשחק השחמט בסוף המילניום שעבר, המשחק גו היה נחשב לפסגת האינטליגנציה האנושית, שלנצח תעמוד בפני הבינה המלאכותית (Artificial Intelligence). ב-2016 הופתענו (או זועזענו, תלוי את מי שואלים) לגלות שמכונה מצוידת בלמידה עמוקה מביסה בקלות את האדם גם במשחק גו. עולה כמובן השאלה האם אנחנו לקראת השתלטות המכונות על האנושות. שאלה מעניינת, אבל לא לבלוג הזה.

גטי אימג'ס
להמשך הפוסט

שביל הזהב - שילוב אדם ומכונה

למידת מכונה היא מונח קסם לכל מי שרוצה לשווק מערכת "חדשנית". האם היא תמיד עדיפה על הידע האנושי? מותר המכונה על האדם – חלק ב'

בפוסט הקודם התחלתי לעסוק באחת המחלוקות הקשות בעולם הביג-דאטה: האם למידת מכונה עדיפה על מערכות חוקים?

נזכיר כי מערכת חוקים, או מערכת מומחה, מורכבת מאוסף של כללים וחוקי היסק שאמורים לקבל החלטות בדומה למומחה אנושי. אולם קשה לבנות מערכות כאלו וציינתי שהתוצאה לעיתים קרובות היא מערכת מסורבלת שקשה מאוד לכוונן אותה. בהקשר הזה יש ללמידת מכונה יתרון. עבור אדם שאינו מיומן, קל הרבה יותר לאסוף דוגמות ולתת למכונה "ללמוד לבד", מאשר לתחזק מערכת חוקים מסורבלת. אבל כפי שכתבתי בפוסט הקודם, לפעמים איסוף הדוגמות הוא ענין לא פשוט עד בלתי אפשרי. במקרים כאלו בעייתי להפעיל שיטות של למידת מכונה.

רובוטית דמוית אדם בסרט "אקס מכינה". החוקרים מקווים לפתח רובוט שמתאים רגש לסיטואציה
ללא קרדיט
להמשך הפוסט

אם רופאה משתמשת באינטואיציה כדי לטפל בחולה - כיצד המחשב יידע להחליף אותה?

האם למידת מכונה עדיפה על מערכות חוקים? האם כדאי ללמוד את מה שכבר ידוע? ■ אם במקרים רבים רופאים מתקשים להסביר כיצד הם מקבלים החלטה לגבי אבחון חולה, מה בעצם אנחנו מצפים ממערכת המומחה האומללה? ■ מותר המכונה על האדם - חלק א'

בפוסט הזה אתחיל לסקור את אחת המחלוקות הקשות בתחום: האם למידת מכונה עדיפה על מערכות חוקים. דרכה אנסה להסביר יתרונות וחסרונות נוספים של שיטות שונות בעולם הביג-דאטה. על למידת מכונה כתבתי מספר פעמים, כאשר הכוונה בעיקר לשיטות הסיווג השונות.

אם כן, מהן מערכות חוקים? אחת הטכנולוגיות המובילות בשנות ה-80 של המאה הקודמת נקראה מערכת מומחה. מדובר בתהליכים שמורכבים מאוסף כללים וחוקי היסק, שאמורים לקבל החלטות בדומה למומחה אנושי, למשל רופא. החשיבה בזמנו הייתה שניתן ללמד את המערכת את כל מה שרופא יודע (או צריך לדעת) כדי לאבחן מחלות. לדוגמא, אם אדם מגיע עם תלונות על כאב גרון וחום, התבונן לו בגרון ובצע לו משטח גרון. אם משטח הגרון נותן תוצאות חיוביות (כלומר, יש דלקת שנגרמת ע"י חיידק) - רשום לו אנטיביוטיקה. אחרת, שלח אותו לדרכו עם המלצה למנוחה ולחפיסת סוכריות מציצה (גילוי נאות: אני לא רופא). היו שטענו שמדובר בטכנולוגיה מבטיחה שתחליף תוך מספר שנים את הרופאים, בדומה לרובוטים שהחליפו פועלי יצור. ובכן, אני מניח שמי שביקר לאחרונה בקופת חולים לא ממש הופתע למצוא שם עדיין רופאים ורופאות, גם כעבור 40 שנה.

להמשך הפוסט

ההבדל בין מומחי ביג דאטה לחובבנים

היכולת להגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה המבדילה באמת בין אנשי ביג דאטה חובבנים למקצוענים

לפני שאמשיך לעסוק בשיטות נוספות בביג-דאטה, אתמקד הפעם באחד המפתחות להצלחה בשיטות ביג דאטה רבות – בחירה נבונה של מאפיינים (תכונות) ומטריקה. מדובר בתכונות שאנו מגדירים עבור כל פריט בנתונים שלנו, ועבור כל תכונה, את האופן שבו נמדוד דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). ציינתי בנושא האשכול כי החלוקות שיתקבלו עבור העצמים שהדגמתי תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, וכו'.

כשתיארתי את שיטת הסיווג המחשתי כי בחירה של תכונות אינה תמיד משימה קלה. למשל, אין לנו מושג באמצעות אלו תכונות אנו מבדילים בין תמונות של כלבים וחתולים. בפוסט העוקב ציינתי את הכלל "כל המרבה הרי זה משובח", כי לפעמים קשה לקבוע מראש אלו מאפיינים יהיו משמעותיים. זה הזמן להסביר מדוע.

להמשך הפוסט

אני יודע מה חיפשת בקיץ האחרון

המוצר זה אני – על אובדן הפרטיות בעידן הביג-דאטה

עד כה עסקתי בשיטות בעולם הביג-דאטה. הפעם אעסוק בנתונים עצמם (כלומר, בדאטה) ובשאלה האם עוד קיימת פרטיות בעולמנו (רמז: לא!).

אניח כי שמעתם על שערוריית פייסבוק האחרונה והעדות "הדרמטית" של צוקרברג. אז נפתח ב"סקופ" אדיר. אני לא חושב שיש מישהו שעוסק בביג-דאטה שהופתע מהפרשה הזו. כבר שנים רבות ידוע כי פייסבוק עושה שימוש בנתונים הפרטיים של משתמשיה וגם מוכרת אותם, בדרך זו או אחרת, לכל דכפין (בעל ממון כמובן) בעיקר לטובת פרסום. זה נכון עבור רוב השירותים שאנו מקבלים בחינם באינטרנט, כי כידוע אין ארוחות חינם. החברות האלו צריכות להתפרנס ממשהו, והמוצר שהם מוכרים הוא נתוני הלקוחות שלהם.

הפגנה נגד פייסבוק
Aaron Bernstein/רויטרס
להמשך הפוסט

על שלושה דברים המודל עומד - כמות, איכות ושכיחות

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה לתוצאות מסוימות ■ בפוסט זה, נסביר כיצד מודדים איכות של מודלים בעולם הביג-דאטה

בפוסט הקודם השארתי ב"אוויר" את האמירה שמודל לאיתור טרוריסטים יטעה בתדירות גבוהה, עד שלא נוכל להשתמש בו. ציינתי שכדי להסביר זאת צריך להבין קודם כיצד מודדים איכות של מודלים בעולם הביג-דאטה. הבטחתי להסביר, והבטחות - יש לקיים.

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה בעקבות תהליך הלמידה לתוצאות מסוימות. זאת מכיוון שבשיטות של למידה בלתי-מונחית כדוגמת אישכול או גילוי אנומליות ניתן אמנם לקבוע האם הפעלת השיטה הועילה, אבל התוצאה בעיקרון סובייקטיבית.

יד נוגעת בהולוגרמה של גרפים
Dreamstime
להמשך הפוסט

איך מאתרים מחט בערמה של שחת?

ישנם יישומים רבים לאלגוריתמים של ניתוח ביג דאטה אך ישנו תחום אחד בו ביג דאטה עדיין אינו יעיל והוא זיהוי ומניעה של פעולות טרור

בפוסטים קודמים סקרתי חלק משיטות למידת המכונה והצגתי יישומים מוצלחים, לצד אתגרים בדרך אל ההצלחה. הפעם אתמקד בהתלהבות היתר שלצערי מאפיינת חלק מהעוסקים בנושא. יש פתגם ידוע שאומר כי "לתינוק עם פטיש, כל העולם נראה כמו מסמר".

באופן דומה, אנשים שהתחנכו אל תוך עולם הביג דאטה סבורים לא פעם שניתן לפתור כל בעיה בשיטות למידת מכונה. ואם לא הצלחנו בניסיון ראשון, ננקוט בכלל הידוע "מה שלא עובד בכוח, עובד בעוד יותר כוח", וננסה שוב ושוב. זאת טעות, בייחוד כאשר לא מקדישים מספיק זמן ללמוד את עולם הבעיה. רמזתי על כך בפוסטים קודמים.

Bloomberg
להמשך הפוסט

סיווג מוצלח – סוף מעשה במחשבה תחילה

הפוסט הקודם המשיך לעסוק באחת מהטכניקות החשובות והשימושיות ביותר – סיווג (Classification). נזכיר כי המטרה היא למצוא אופן חלוקה (או מודל בשפה המקצועית) שיצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר. רמזתי שיש מספר דברים שיכולים להשתבש. אנסה להמחיש חלק מהאתגרים בדרך למודל סיווג מוצלח, כדי שתוכלו להעריך את הקשיים שיעמדו בפניכם.

ראשית, כדי לפתח מודל סיווג יש צורך בדוגמאות מתויגות עבור כל קבוצה אליה אנחנו רוצים לסווג. יש מקרים שאין בכך בעיה, אולם במקרים רבים מדובר באתגר לא קטן, מכמה סיבות. הזכרתי בפעם הקודמת את הקושי באיסוף דוגמאות לתביעות תמימות ותביעות זדוניות לצורך בנית מודל לאיתור הונאות ביטוח. לפעמים הקושי מתחיל עוד קודם, כי אין בנמצא מאגר מתויג (כלומר, עם תשובות נכונות). לדוגמא, אני רוצה לאמן מסווג שיזהה תקשורת זדונית שמקורה בהתקפת סייבר. כמו קודם, צריך להכין מאגרים של קטעי תקשורת זדוניים אל מול תמימים. אבל להבדיל מתביעות ביטוח שנבדקות ע"י אנשים שמקבלים החלטות, את הרוב המוחלט של תעבורת התקשורת עין אנוש לא שזפה. נדרש לבצע תהליך מלאכותי ארוך ומייגע וגם כאן אין כמובן ודאות לאיכות התיוג. גרוע מכך, לפעמים לא ניתן לעשות זאת כלל בשל הגנת פרטיות. 

להמשך הפוסט

ארוך ומייגע - אבל אפשרי: איך בונים מודל שחוזה את העתיד?

ככל שיש לנו יותר מידע - שיטות הסיווג רק הולכות ומשתפרות ■ ישנם עשרות אלגוריתמים קיימים לסיווג, ונעזרים בהם כדי לאמן את המודל שלכם לזהות דפוסים חריגים או כאלו שאתם רוצים לעקוב אחריהם

בשני הפוסטים הראשונים הצגתי בקצרה שתי שיטות למידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ואישכול. בפוסט הקודם התחלנו לעסוק בשיטת הסיווג (Classification), אחת משיטות הלמידה המונחית (Supervised learning) החשובות והשימושיות ביותר ונמשיך לעסוק בה גם הפעם.

המטרה כאמור היא לחלק (או למיין) את העצמים לקבוצות שמוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה. הרעיון הבסיסי הוא ללמוד בצורה מונחה מדוגמאות אמיתיות שהתוצאה עבורן ידועה. נמחיש את תהליך הסיווג (וחלק מהקשיים בו) באמצעות דוגמה לגילוי הונאות ביטוח בתאונות דרכים. מטרתנו היא לבנות מודל שידע לסווג תביעות ביטוח חדשות לשתי קבוצות: תביעה רגילה (תמימה) ותביעה זדונית (הונאה).

מאט דיימון בסרט וויל האנטינג
צילום מסך מיוטיוב
להמשך הפוסט

כך עובדים האלגוריתמים של חברות אבטחת המידע

סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש ■ המטרה היא למצוא אופן חלוקה שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר ■ בעולם המסחרי סיווג משמש לפילוח לקוחות ובעולם הסייבר - לזיהוי פעילות עוינת מסוגים שונים

בסיווג המטרה היא לחלק (או למיין) את העצמים לקבוצות, אבל הפעם מחליטים מראש מיהן הקבוצות, וכיאה ללמידה מונחית, יש בהחלט משמעות למושג "תשובה נכונה". הקבוצות מוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה.

קל להמחיש זאת באמצעות עולם החי. למשל, כולנו מבינים את המשמעות של שלוש הקבוצות הבאות: "יונקים" (למשל כלב, חתול), "עופות" (למשל יונה, תרנגולת) ו"חרקים" (למשל זבוב, יתוש). אם יראו לנו תמונה של פיל, כנראה שנדע לשייך אותה לקבוצת ה"יונקים", ברווז נשייך לקבוצת ה"עופות", ותמונה של ג'וק (אחרי שנפסיק להיגעל), נשייך לקבוצת ה"חרקים". אם לעומת זאת יראו לנו תמונה של לטאה, תהיה לנו איתה בעיה. כי לטאה היא לא יונק, לא עוף ולא חרק.

Dreamstime
להמשך הפוסט

וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול

פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער ■ חלוקת פריטי המידע לקבוצות בעלות איברים דומים, היא שיטה שימושית לצורך ארגון וניתוח ראשוני של הנתונים וממקדת אותנו מהר יותר במה שאנחנו מחפשים

בפוסט הקודם הצגתי בקצרה את שיטת גילוי האנומליות (Anomaly detection), אחת השיטות ללמידה בלתי-מונחית (Unsupervised learning). הפעם נעסוק באחת מהשיטות הפופולריות האלו – Clustering ובעברית אישכול (או צברור, או קיבוץ, ואפשר גם קליסטור). יש עשרות אלגוריתמים לאישכול, ולכולם אותה מטרה – לחלק את פריטי המידע לקבוצות בעלות איברים דומים.

למה זה טוב? כי פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער. חלוקה לקבוצות מאפשרת לקבל תובנות חדשות מהנתונים מעצם חלוקתם לקבוצות. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אישכול על התשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. עצם החלוקה לימדה אותנו יותר על המילה "ברק", וגם תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

יער ירוק ועצים כשברקע מציצה שמש
Elena Schweitzer | Dreamstime.co
להמשך הפוסט

הכוח האמיתי של ניתוח נתונים

ביג דאטה (Big Data) ומהפכת המידע מבטיחים לשנות את חיינו – כך הם עובדים ואלו חלק מהיישומים שלהם בחיי היום יום

בלוג זה ינסה להסביר ולהמחיש מה כוחם האמיתי של ניתוח נתונים, למידת מכונה, כריית מידע או הבאז-וורד הנוכחי – ביג דאטה. לא מדובר בקורס, אלא בניסיון לתת לקורא הממוצע (והלא מקצועי) תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

נפתח בדוגמה. נניח שאת מנהלת של חברה, קראת ושמעת רבות על האיומים בסייבר, ואת מוטרדת האם גונבים לך מידע מהחברה. כן, יש לך אנטי וירוס על המחשבים בחברה, אבל את נבונה ומעודכנת, ומבינה שזה מספיק כמו לתלות שיני שום על הדלת. מצד שני, יש הרבה מאוד מידע שזורם ברשתות התקשורת ונאגר על המחשבים (כלומר, ביג דאטה) ואת חושבת שיש מה לעשות איתו. גם בזה את צודקת. אפשר כמובן לרכוש אחד או יותר משלל מוצרי הגנת הסייבר שנמכרים כיום, אבל לא בזה אנחנו עוסקים.

להמשך הפוסט