ההבדל בין מומחי ביג דאטה לחובבנים - הבלוג של ד"ר יעקב רימר - TheMarker
 

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

ההבדל בין מומחי ביג דאטה לחובבנים

היכולת להגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה המבדילה באמת בין אנשי ביג דאטה חובבנים למקצוענים

תגובות

לפני שאמשיך לעסוק בשיטות נוספות בביג-דאטה, אתמקד הפעם באחד המפתחות להצלחה בשיטות ביג דאטה רבות – בחירה נבונה של מאפיינים (תכונות) ומטריקה. מדובר בתכונות שאנו מגדירים עבור כל פריט בנתונים שלנו, ועבור כל תכונה, את האופן שבו נמדוד דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). ציינתי בנושא האשכול כי החלוקות שיתקבלו עבור העצמים שהדגמתי תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, וכו'.

כשתיארתי את שיטת הסיווג המחשתי כי בחירה של תכונות אינה תמיד משימה קלה. למשל, אין לנו מושג באמצעות אלו תכונות אנו מבדילים בין תמונות של כלבים וחתולים. בפוסט העוקב ציינתי את הכלל "כל המרבה הרי זה משובח", כי לפעמים קשה לקבוע מראש אלו מאפיינים יהיו משמעותיים. זה הזמן להסביר מדוע.

כל מה שצריך לדעת על קריירה בהייטק
כנסו למתחם

אחזור שוב אל דוגמת זיהוי החשודים בחדר כדי להמחיש את הנקודה הזו. אזכיר כי המטרה שלכם היא לזהות בתמונה חשודים בתוך חדר מלא אנשים. כל מה שידוע לכם, שמדובר בגברים לובשי מכנסי ג'ינס. התבוננו בתמונה 1. אני מנחש שלא היו לכם קשיים מיוחדים לזהות את החשודים על סמך שתי התכונות האלו בלבד.

תמונה 1: זהו בתמונה את החשודים, שני גברים לובשי מכנסי ג'ינס
ללא

כעת התבוננו בתמונה 2. גם הפעם עליכם לזהות את החשודים שלבושים במכנסי ג'ינס. האם גם עכשיו עמדתם במשימה? אני מנחש שאלמלא התבוננתם קודם בתמונה 1, הייתם מתקשים לזהות את החשודים רק על סמך התכונות מגדר ("גבר") וסוג מכנסיים ("מכנסי ג'ינס"). התכונה "מגדר" היתה שימושית מאוד בתמונה 1, אבל חסרת משמעות בתמונה 2. התכונה "סוג מכנסיים" (כלומר מכנסי ג'ינס), אינה שימושית במיוחד אפילו בתמונה 1. שימו לב שגם התכונה "צבע חולצה" (ירוקה) לא מאוד מסייעת בשתי התמונות. כלומר, אם כל התכונות שאנו יכולים להשתמש בהם הן מגדר וצבע בגדים, מובטח לנו כישלון אפילו בדוגמה הפשוטה הזו.

תמונה 2: האם גם כאן קל לזהות את החשודים?

היינו אולי רוצים להוסיף את התכונה "בעל עבר פלילי" שנשמעת רלוונטית, אבל היא לא ממש תעזור לנו במסדר תמונות. דווקא התכונה "תנוחת עמידה" מסתברת כשימושית במקרה המלאכותי הזה. השילוב של התכונות מגדר ("גבר") + צבע חולצה ("ירוקה") + תנוחת עמידה ("עמידת נוח זקופה") מאפיין רק את שני החשודים "שלנו". חבל רק שהדברים קצת יותר מורכבים בעולם האמיתי...

דוגמה פשוטה זו ממחישה שלא כדאי להסתפק רק בתכונות המידיות שקל מאוד לחשוב עליהן, אלא תמיד מומלץ לחשוב על תכונות נוספות שעשויות לסייע. מומחה ביג-דאטה מנוסה ישאף להתחיל עם הרבה מאוד תכונות. יש שיטות טובות, כחלק מתהליך הלמידה, לצמצם ולהתמקד רק בתכונות שמסייעות למטרה. בד"כ אפשר גם ליצור תכונות חדשות על ידי כל מיני חישובים ותרגילים אחרים, שקצרה כאן היריעה מלהסביר. יש גם שיטות ביג-דאטה, למשל מלכת הכיתה החדשה שנקראת "למידה עמוקה", שמסוגלות להצביע לבד על תכונות שימושיות. גם כאן הדברים יותר מורכבים, ואקדיש להם (בלי נדר) פוסט בעתיד. 

נניח וכבר יש לנו תכונות מעולות. זו כאמור רק חצי מלאכה. עדיין נדרשת גם הגדרה של מטריקה עבור כל תכונה. יש תכונות עבורן הדברים די פשוטים. למשל, אם נחזור לדוגמה של החשודים ונגדיר תכונה של "גובה החשוד", המטריקה ברורה, פשוט מודדים גובה. אבל מה זה "דומה" בכל מה שקשור ל"צבע חולצה"? כאן הדברים מעט יותר מסובכים. ומה קורה עבור התכונה "מגדר"? למרות הנאורות המבורכת בימינו, עדיין מקובל להגדיר רק שני מגדרים: "זכר" ו"נקבה". במקרה כזה אין משמעות למטריקה (או לדמיון), אלא לחלוקה קטגורית בלבד.

והנה דוגמה ריאליסטית יותר. נניח ואני רוצה לאפיין תכונות של קבצים במחשב, בחיפוש אחרי קבצים זדוניים. סוג הקובץ הוא תכונה קטגורית (וורד, PDF, וכו'). אורך הקובץ ניתן למדידה והשוואה. תאריך יצירת הקובץ אף הוא ניתן להשוואה. וניתן להגדיר מתאריך היצירה גם תכונות קטגוריות. למשל, האם הקובץ נוצר בשעות העבודה, לאחר שעות עבודה, או בסופי שבוע (כלומר, 3 קטגוריות). ולמה זה טוב? כי דווקא תכונה מסוג זו אולי תבדיל בין קבצים תמימים (שבד"כ נוצרים במהלך העבודה) לבין קבצים זדוניים, ש"נולדו" להם פתאום כשהמשרדים ריקים. זו דוגמא בלבד. כרגיל, המציאות הרבה יותר מורכבת.

לסיכום, אפשר וחשוב ללמוד עשרות שיטות ביג-דאטה שונות ולהבין את המתמטיקה שלהן (כפי שמלמדים באוניברסיטאות). אבל מניסיוני, היכולת להגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה המבדילה באמת בין אנשי ביג דאטה חובבנים למקצוענים. מקצוען גם ישקיע זמן בהבנת תחום העיסוק הרלוונטי לנתונים. כי כרגיל, סוף מעשה במחשבה תחילה.



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#