כך עובדים האלגוריתמים של חברות אבטחת המידע

סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש ■ המטרה היא למצוא אופן חלוקה שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר ■ בעולם המסחרי סיווג משמש לפילוח לקוחות ובעולם הסייבר - לזיהוי פעילות עוינת מסוגים שונים

יעקב רימר
ד"ר יעקב רימר
מתמטיקה
צילום: Dreamstime
יעקב רימר
ד"ר יעקב רימר

בסיווג המטרה היא לחלק (או למיין) את העצמים לקבוצות, אבל הפעם מחליטים מראש מיהן הקבוצות, וכיאה ללמידה מונחית, יש בהחלט משמעות למושג "תשובה נכונה". הקבוצות מוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה.

קל להמחיש זאת באמצעות עולם החי. למשל, כולנו מבינים את המשמעות של שלוש הקבוצות הבאות: "יונקים" (למשל כלב, חתול), "עופות" (למשל יונה, תרנגולת) ו"חרקים" (למשל זבוב, יתוש). אם יראו לנו תמונה של פיל, כנראה שנדע לשייך אותה לקבוצת ה"יונקים", ברווז נשייך לקבוצת ה"עופות", ותמונה של ג'וק (אחרי שנפסיק להיגעל), נשייך לקבוצת ה"חרקים". אם לעומת זאת יראו לנו תמונה של לטאה, תהיה לנו איתה בעיה. כי לטאה היא לא יונק, לא עוף ולא חרק.

כלומר, כל מה שעל השיטה לבצע הוא לחלק עצמים, בדוגמה שלנו חיות, לכמה קבוצות. נשמע פשוט, לא? אז זהו, שלא. ראשית, החלוקה לא תמיד ברורה. אם נישאר בעולם החי, הסיווג ה"רשמי" של היצורים בטבע משתנה כל מספר שנים עקב מציאת תגליות חדשות שמאתגרות את ההגדרות שלנו. למשל, יש חיה בשם ברווזן, שנראית כאילו ממציא חובבן הלחים יחד חלקי חילוף של כמה חיות. מדובר לכאורה ביונק, אבל יש לו מקור (כמו של ברווז, מכאן שמו) והוא מטיל ביצים (טוב, הכוונה לנקבה...). יונקים כידוע, לא מטילים ביצים, ועופות כידוע לא יונקים. לא בכדי חלק מהמדענים הראשונים שראו פוחלץ של ברווזן חשבו שמדובר במתיחה.

שנית, כמו באישכול, גם בסיווג החלוקה מתבצעת על סמך תכונות מסוימות לכל פריט. כפי שכבר רמזתי בהקשר של האישכול, בחירה נבונה של תכונות לסיווג מוצלח היא משימה לא קלה. אמחיש זאת בדוגמה הציורית הבאה. התבוננו בתמונה 1. המשימה שלכם פשוטה ביותר, לחלק את שש החיות לשתי קבוצות: "כלבים" ו "לא כלבים" (רמז, יש שם גם חתול ודב). הצלחתם? כל הכבוד.

תמונה 1 : מיהו כלב?

כעת חישבו על סמך אילו תכונות של החיות חילקתם את התמונות. כלומר, מה בעצם מבדיל כלב מחתול או דב? לכולם יש 4 רגלים, שתי אוזניים וזנב. לכולם יש פרווה, וכידוע מגוון סוגי הפרוות של כלבים וחתולים הוא די גדול. גם הצבעים של החיות בתמונה 1 לא מסייעים לנו. ובאופן כללי, יש כלבים בגדלים וצורות שונים למדי, ובכל זאת אנחנו יודעים להבדיל בין כלבים לחיות אחרות. איך?

אם אתם לא יודעים, אתם בחברה טובה. הצגתי את הדוגמה הזו בהרצאות רבות, בפני אלפי אנשים. איש לא ידע להגיד איך הוא בעצם יודע להבחין "מהו כלב" (חוץ מחכמולוג אחד שאמר שכלב נובח, מה שקצת קשה לקבוע בהתבוננות בתמונות). אז איך בכל זאת אנחנו יודעים? זאת דוגמא מצוינת לאופן בו המוח שלנו לומד מתוך דוגמאות.

כידוע במקומותינו, החיה הראשונה שתינוק בדרך כלל לומד להכיר היא כלב. אחרי שנראה לרך הנולד הרבה כלבים ונסביר לו שזה כלב, החמוד הקטן יצביע יום אחד ויאמר בגאווה "כלב" (או יותר נכון, "הב"). אבל כנראה שהוא יגיד "הב" גם כשיראה חתול...רק אחרי שנתקן אותו מספר פעמים (זה לא "הב", זה חתול, "מיאו"), יום בהיר אחד הגאון הצעיר יצביע על חתול ויאמר "מיאו". כלומר, הוא למד בהנחיה שלנו מדוגמאות עם פתרון ידוע, וכעת הוא יודע לסווג בין כלבים וחתולים. מרוצים מאוד מיכולתו, ניקח אותו לגן חיות ונראה לו דב. מה הוא יגיד עכשיו? סביר להניח ש"הב", כי עולמו מורכב מכלבים וחתולים ודב יותר דומה לכלב. המוח שלנו עושה את תהליכי הלמידה והסיווג האלו בצורה מופלאה (תרתי משמע). כששואלים אותנו, אין לנו (לבושתנו) כל כך מושג על סמך מה.

יש עוד אתגרים בסיווג שנעסוק בהם בעתיד. רק הבה נסכם לפני שנעבור לדוגמאות שימושיות יותר מסיווג כלבים. סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש (כלומר, הן מתויגות). גם הקבוצות אליהן אנחנו רוצים לסווג נקבעות מראש ומוגדרות על פי דוגמאות מוכרות ומתויגות. המטרה היא למצוא אופן חלוקה (או מודל בשפה המקצועית) שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר.

בעולם הסייבר למשל, מודלי סיווג משמשים לזיהוי פעילות עוינת מסוגים שונים: זיהוי של קבצים זדוניים (סוסים, וירוסים, תולעים ושאר "חיות"), זיהוי של תקשורת זדונית אל החברה (למשל פיקוד על סוסים טרויאנים), או זיהוי של תקשורת זדונית בתוך רשת התקשורת הפרטית של החברה עצמה ועוד. בעולם המסחרי סיווג משמש לפילוח לקוחות לקראת מבצעי קידום מכירות, לזיהוי לקוחות שעלולים לעזוב את החברה, לבחירת הצעות מכירה שעשויות לעניין לקוחות, לגילוי הונאות מסוגים שונים ועוד. נרחיב עוד על נושא הסיווג בפוסט הבא.

כתבות מומלצות

גיף

סיוט בחופשה: 7 תחנות במסלול הייסורים שצפוי לכם בקיץ 2022

נורמן מילנר. "אני לא אומר שקפיטליזם היא השיטה הכי טובה"

"יש בשוק הזה הזדמנות שלא ראינו עשורים"

מנכ"ל ובעלי בן אנד ג'ריס ישראל, אבי זינגר

"עשה את עסקת חייו": כך הצליח אבי זינגר לרכוש את בן אנד ג'ריס במחיר זעום

מנכ"ל מטא מארק צוקרברג. עידכן את העובדים כי יצטרכו לעמוד ביעדים אינטנסיביים יותר עם משאבים פחותים

צמצומים, ביטול מוצרים ופניית פרסה בפיד: הצרות של מטא רק מתחילות

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

קוונטום סורס. שלומית סמל, ברק דיין, עודד מלמד וגיל סמו

"זו ההחלטה הכי מפחידה שעשיתי. כשנצליח, נהיה הבסיס למהפכת המחשוב הבאה של האנושות"

בנייה בשדרות. "יש בעיר תשואות טובות יחסית להשקעה בדירה במרכז הארץ"

"נמאס מהמחירים המטורפים של המרכז. פה אני משלם 2,600 שקל על דירת גן — והכל מהטבת המס"