שואפים לעבוד כמומחי ביג-דאטה? זה מה שמצופה מכם לדעת - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

שואפים לעבוד כמומחי ביג-דאטה? זה מה שמצופה מכם לדעת

מה מאפיין מומחה ביג-דאטה, מה מצופה ממנו לדעת ובמה כדאי לו לחשוד

3תגובות
נשים עובדות יחד
Getty Images IL

בפוסטים קודמים עסקתי בטכניקות שונות של עולם הביג-דאטה ובניסיון להמחיש מה אפשר ואי אפשר להשיג באמצעותן. לרגל הפוסט ה-25 (בכל זאת חצי יובל), אקדיש אותו לאנשים. כלומר, לשאלה מה מאפיין מומחה ביג-דאטה ומה מצופה ממנו או ממנה לדעת.

ובכן, בראש ובראשונה הוא צריך לאהוב נתונים. בעוד מרבית בני האנוש נרתעים מנתונים כמו מאש, הוא דווקא נמשך אליהם כפרפר לאש. בכל פעם שמאגר נתונים מענין יקרה בדרכו, למשל תוצאות הבחירות האחרונות, הוא ישמח לנתח אותו ולהפיק תובנות. למי שמעוניין בדוגמות לתובנות משעשעות שניתן להסיק מנתונים משעממים, מומלץ לקרוא את סדרת הספרים המצוינת פריקונומיקס (שגם כתובה מצוין). למשל, איך ניתוח ספרי מכירות של סוחרי סמים מלמד מדוע רובם גרים עם אמא שלהם.

מומחה יתחיל כל מחקר ביג-דאטה במספר פעולות בסיסיות על הנתונים כדי להעריך את איכותם ומה ניתן להפיק מהם. מקצוען אמיתי לעולם לא יסתפק בכך וגם ישקיע זמן להבין את תחום העיסוק הרלוונטי לנתונים. עבודה עם נתונים מבלי להבין מהיכן הגיעו ומה המשמעות שלהם, משולה בעיני לבהייה בספר בישול שכתוב בסינית. אפשר להתרשם מיופי האותיות ואולי מהתמונות (אם יש כאלו). אבל אם אתה לא מבין סינית, אל תזמין אותי לאכול מתכונים שבשלת ממנו. לא מצופה ממומחה ביג-דאטה להבין הכל על הכל, אבל בהחלט נדרש ממנו ללמוד מספיק על כל נושא מחקר כדי לדעת מה לשאול את אלו שמבינים. אני מופתע עד כמה אנשים נוטים לדלג על השלב הזה. מה שתמיד מוביל לשיח חרשים בין הלקוח למומחה, ובדרך כלל גם לתוצאות מחקר גרועות עד מביכות.

בכלל, מומחה ביג-דאטה צריך להיות בעל אוריינטציה של חוקר. הוא צריך לדעת לאפיין בעצמו את שאלות המחקר, אפילו כאשר הלקוח כבר הציב שאלות מחקר וחושב שהוא מבין הכל על הנתונים שלו. המציאות היא שללקוחות רבים יש רצון כללי בלבד (למשל, להרוויח יותר כסף), והדרך מכאן אל השאלות שצריך לשאול על הנתונים רצופה מהמורות. גם יצא לי יותר מדי פעמים לתאר בפני הלקוח מהם הנתונים שבאמת יש לו. אם תרצו, גרסת הביג-דאטה לחלום ושברו.

נתונים, דאטה
Sdecoret | Dreamstime.com

כפי שכבר כתבתי בעבר, היכולת להבין היטב את הנתונים ולהגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה שלדעתי מבדילה באמת בין אנשי ביג-דאטה חובבנים למקצוענים. זה נכון גם כיום, כאשר שיטות למידה עמוקה מייתרות (לכאורה) את הצורך הזה. יש תחומים רבים שבהם עדיין צריך להכין את הנתונים ולבצע מניפולציות שונות כדי להשתמש בהם במחקר באופן מושכל.

מומחה צריך להבין גם את השיטות השונות לארגון הנתונים. יש כיום מגוון שיטות לאגירת נתונים, וצריך לדעת להתאים את שיטת האגירה למטרות המחקר ואופי הנתונים. זה נושא שטרם עסקתי בו, ואולי אפרט עליו בפוסטים עתידיים. הנושא קריטי ככל שכמות הנתונים גדלה וגם תלוי בקצב אגירת הנתונים, במהירות הנדרשת למתן תשובות ועוד. ורק להמחשה, נתוני בחירות הן טיפה אל מול אוקיאנוס הנתונים שקיים בעולמות תוכן כמו תקשורת, סייבר, ביולוגיה, או רפואה. ואפרופו רפואה, כמו שיש רופאים שמתמחים בכף יד או בסרטן אחד מסוים, כך יש כיום התמחויות ספציפיות בנושא אגירת וניהול הנתונים. קשה להתמצא בכל הידע של תחום מתפתח. עדיין, מומחה ביג-דאטה טוב צריך להכיר את שיטות הארגון כדי לבחור בשיטה המתאימה.

וכמובן שצריך להכיר את השיטות השונות לניתוח נתונים ולדעת מתי ואיך להפעיל כל אחת מהן. מרבית הפוסטים עסקו בשיטות אלו ולכן לא אפרט כאן. אומר רק שלדעתי מומחה ביג-דאטה לא חייב לדעת איך להמציא טכניקות חדשות, או להתמחות במתמטיקה מאחורי השיטות הקיימות. כמובן שחשוב להבין את היסודות, אבל טייס מצטיין לא חייב להבין איך מיוצר כל בורג במטוס שלו. הבעיה היא שמרבית החוקרים באקדמיה עוסקים בפיתוח שיטות, אותם הם מנסים בד"כ על מאגרים שנועדו למחקר. לכן הבוגרים עם רקע מתמטי גבוה, אבל כמעט חסרי רקע או יכולת להתחבר לנתונים בעולם האמיתי.

מומחה ביג-דאטה חייב לדעת איך למדוד את איכות התוצאות ותמיד לחשוד כשהדברים נראים טוב מכדי להיות אמיתיים. למשל בתחום הסייבר, אם תוצאות המחקר מראות שניתן להבחין בין קובץ רגיל לקובץ זדוני (למשל וירוס) באיכות של 95%, כדאי לחזור למשבצת הראשונה ולבדוק איפה טעית. נכון, מדי פעם מתרחשות פריצות דרך בעולם מחקר הנתונים. אך אם התוצאות מראות שיפור משמעותי על כל מאות המחקרים שקדמו לך, כדאי לבדוק שוב את הדברים לפני שרצים לספר לחברה.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#