כך עובדים האלגוריתמים של חברות אבטחת המידע

סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש ■ המטרה היא למצוא אופן חלוקה שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר ■ בעולם המסחרי סיווג משמש לפילוח לקוחות ובעולם הסייבר - לזיהוי פעילות עוינת מסוגים שונים

יעקב רימר
ד"ר יעקב רימר
מתמטיקה
צילום: Dreamstime
יעקב רימר
ד"ר יעקב רימר

בסיווג המטרה היא לחלק (או למיין) את העצמים לקבוצות, אבל הפעם מחליטים מראש מיהן הקבוצות, וכיאה ללמידה מונחית, יש בהחלט משמעות למושג "תשובה נכונה". הקבוצות מוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה.

קל להמחיש זאת באמצעות עולם החי. למשל, כולנו מבינים את המשמעות של שלוש הקבוצות הבאות: "יונקים" (למשל כלב, חתול), "עופות" (למשל יונה, תרנגולת) ו"חרקים" (למשל זבוב, יתוש). אם יראו לנו תמונה של פיל, כנראה שנדע לשייך אותה לקבוצת ה"יונקים", ברווז נשייך לקבוצת ה"עופות", ותמונה של ג'וק (אחרי שנפסיק להיגעל), נשייך לקבוצת ה"חרקים". אם לעומת זאת יראו לנו תמונה של לטאה, תהיה לנו איתה בעיה. כי לטאה היא לא יונק, לא עוף ולא חרק.

כלומר, כל מה שעל השיטה לבצע הוא לחלק עצמים, בדוגמה שלנו חיות, לכמה קבוצות. נשמע פשוט, לא? אז זהו, שלא. ראשית, החלוקה לא תמיד ברורה. אם נישאר בעולם החי, הסיווג ה"רשמי" של היצורים בטבע משתנה כל מספר שנים עקב מציאת תגליות חדשות שמאתגרות את ההגדרות שלנו. למשל, יש חיה בשם ברווזן, שנראית כאילו ממציא חובבן הלחים יחד חלקי חילוף של כמה חיות. מדובר לכאורה ביונק, אבל יש לו מקור (כמו של ברווז, מכאן שמו) והוא מטיל ביצים (טוב, הכוונה לנקבה...). יונקים כידוע, לא מטילים ביצים, ועופות כידוע לא יונקים. לא בכדי חלק מהמדענים הראשונים שראו פוחלץ של ברווזן חשבו שמדובר במתיחה.

שנית, כמו באישכול, גם בסיווג החלוקה מתבצעת על סמך תכונות מסוימות לכל פריט. כפי שכבר רמזתי בהקשר של האישכול, בחירה נבונה של תכונות לסיווג מוצלח היא משימה לא קלה. אמחיש זאת בדוגמה הציורית הבאה. התבוננו בתמונה 1. המשימה שלכם פשוטה ביותר, לחלק את שש החיות לשתי קבוצות: "כלבים" ו "לא כלבים" (רמז, יש שם גם חתול ודב). הצלחתם? כל הכבוד.

כלבים
תמונה 1 : מיהו כלב?

כעת חישבו על סמך אילו תכונות של החיות חילקתם את התמונות. כלומר, מה בעצם מבדיל כלב מחתול או דב? לכולם יש 4 רגלים, שתי אוזניים וזנב. לכולם יש פרווה, וכידוע מגוון סוגי הפרוות של כלבים וחתולים הוא די גדול. גם הצבעים של החיות בתמונה 1 לא מסייעים לנו. ובאופן כללי, יש כלבים בגדלים וצורות שונים למדי, ובכל זאת אנחנו יודעים להבדיל בין כלבים לחיות אחרות. איך?

אם אתם לא יודעים, אתם בחברה טובה. הצגתי את הדוגמה הזו בהרצאות רבות, בפני אלפי אנשים. איש לא ידע להגיד איך הוא בעצם יודע להבחין "מהו כלב" (חוץ מחכמולוג אחד שאמר שכלב נובח, מה שקצת קשה לקבוע בהתבוננות בתמונות). אז איך בכל זאת אנחנו יודעים? זאת דוגמא מצוינת לאופן בו המוח שלנו לומד מתוך דוגמאות.

כידוע במקומותינו, החיה הראשונה שתינוק בדרך כלל לומד להכיר היא כלב. אחרי שנראה לרך הנולד הרבה כלבים ונסביר לו שזה כלב, החמוד הקטן יצביע יום אחד ויאמר בגאווה "כלב" (או יותר נכון, "הב"). אבל כנראה שהוא יגיד "הב" גם כשיראה חתול...רק אחרי שנתקן אותו מספר פעמים (זה לא "הב", זה חתול, "מיאו"), יום בהיר אחד הגאון הצעיר יצביע על חתול ויאמר "מיאו". כלומר, הוא למד בהנחיה שלנו מדוגמאות עם פתרון ידוע, וכעת הוא יודע לסווג בין כלבים וחתולים. מרוצים מאוד מיכולתו, ניקח אותו לגן חיות ונראה לו דב. מה הוא יגיד עכשיו? סביר להניח ש"הב", כי עולמו מורכב מכלבים וחתולים ודב יותר דומה לכלב. המוח שלנו עושה את תהליכי הלמידה והסיווג האלו בצורה מופלאה (תרתי משמע). כששואלים אותנו, אין לנו (לבושתנו) כל כך מושג על סמך מה.

יש עוד אתגרים בסיווג שנעסוק בהם בעתיד. רק הבה נסכם לפני שנעבור לדוגמאות שימושיות יותר מסיווג כלבים. סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש (כלומר, הן מתויגות). גם הקבוצות אליהן אנחנו רוצים לסווג נקבעות מראש ומוגדרות על פי דוגמאות מוכרות ומתויגות. המטרה היא למצוא אופן חלוקה (או מודל בשפה המקצועית) שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר.

בעולם הסייבר למשל, מודלי סיווג משמשים לזיהוי פעילות עוינת מסוגים שונים: זיהוי של קבצים זדוניים (סוסים, וירוסים, תולעים ושאר "חיות"), זיהוי של תקשורת זדונית אל החברה (למשל פיקוד על סוסים טרויאנים), או זיהוי של תקשורת זדונית בתוך רשת התקשורת הפרטית של החברה עצמה ועוד. בעולם המסחרי סיווג משמש לפילוח לקוחות לקראת מבצעי קידום מכירות, לזיהוי לקוחות שעלולים לעזוב את החברה, לבחירת הצעות מכירה שעשויות לעניין לקוחות, לגילוי הונאות מסוגים שונים ועוד. נרחיב עוד על נושא הסיווג בפוסט הבא.

יעקב רימר

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

תגובות

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ