שואפים לעבוד כמומחי ביג-דאטה? זה מה שמצופה מכם לדעת

מה מאפיין מומחה ביג-דאטה, מה מצופה ממנו לדעת ובמה כדאי לו לחשוד

ד"ר יעקב רימר
נשים עובדות יחד
צילום: Getty Images IL
ד"ר יעקב רימר

בפוסטים קודמים עסקתי בטכניקות שונות של עולם הביג-דאטה ובניסיון להמחיש מה אפשר ואי אפשר להשיג באמצעותן. לרגל הפוסט ה-25 (בכל זאת חצי יובל), אקדיש אותו לאנשים. כלומר, לשאלה מה מאפיין מומחה ביג-דאטה ומה מצופה ממנו או ממנה לדעת.

ובכן, בראש ובראשונה הוא צריך לאהוב נתונים. בעוד מרבית בני האנוש נרתעים מנתונים כמו מאש, הוא דווקא נמשך אליהם כפרפר לאש. בכל פעם שמאגר נתונים מענין יקרה בדרכו, למשל תוצאות הבחירות האחרונות, הוא ישמח לנתח אותו ולהפיק תובנות. למי שמעוניין בדוגמות לתובנות משעשעות שניתן להסיק מנתונים משעממים, מומלץ לקרוא את סדרת הספרים המצוינת פריקונומיקס (שגם כתובה מצוין). למשל, איך ניתוח ספרי מכירות של סוחרי סמים מלמד מדוע רובם גרים עם אמא שלהם.

מומחה יתחיל כל מחקר ביג-דאטה במספר פעולות בסיסיות על הנתונים כדי להעריך את איכותם ומה ניתן להפיק מהם. מקצוען אמיתי לעולם לא יסתפק בכך וגם ישקיע זמן להבין את תחום העיסוק הרלוונטי לנתונים. עבודה עם נתונים מבלי להבין מהיכן הגיעו ומה המשמעות שלהם, משולה בעיני לבהייה בספר בישול שכתוב בסינית. אפשר להתרשם מיופי האותיות ואולי מהתמונות (אם יש כאלו). אבל אם אתה לא מבין סינית, אל תזמין אותי לאכול מתכונים שבשלת ממנו. לא מצופה ממומחה ביג-דאטה להבין הכל על הכל, אבל בהחלט נדרש ממנו ללמוד מספיק על כל נושא מחקר כדי לדעת מה לשאול את אלו שמבינים. אני מופתע עד כמה אנשים נוטים לדלג על השלב הזה. מה שתמיד מוביל לשיח חרשים בין הלקוח למומחה, ובדרך כלל גם לתוצאות מחקר גרועות עד מביכות.

בכלל, מומחה ביג-דאטה צריך להיות בעל אוריינטציה של חוקר. הוא צריך לדעת לאפיין בעצמו את שאלות המחקר, אפילו כאשר הלקוח כבר הציב שאלות מחקר וחושב שהוא מבין הכל על הנתונים שלו. המציאות היא שללקוחות רבים יש רצון כללי בלבד (למשל, להרוויח יותר כסף), והדרך מכאן אל השאלות שצריך לשאול על הנתונים רצופה מהמורות. גם יצא לי יותר מדי פעמים לתאר בפני הלקוח מהם הנתונים שבאמת יש לו. אם תרצו, גרסת הביג-דאטה לחלום ושברו.

נתונים, דאטה
נתונים, דאטהצילום: Sdecoret | Dreamstime.com

כפי שכבר כתבתי בעבר, היכולת להבין היטב את הנתונים ולהגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה שלדעתי מבדילה באמת בין אנשי ביג-דאטה חובבנים למקצוענים. זה נכון גם כיום, כאשר שיטות למידה עמוקה מייתרות (לכאורה) את הצורך הזה. יש תחומים רבים שבהם עדיין צריך להכין את הנתונים ולבצע מניפולציות שונות כדי להשתמש בהם במחקר באופן מושכל.

מומחה צריך להבין גם את השיטות השונות לארגון הנתונים. יש כיום מגוון שיטות לאגירת נתונים, וצריך לדעת להתאים את שיטת האגירה למטרות המחקר ואופי הנתונים. זה נושא שטרם עסקתי בו, ואולי אפרט עליו בפוסטים עתידיים. הנושא קריטי ככל שכמות הנתונים גדלה וגם תלוי בקצב אגירת הנתונים, במהירות הנדרשת למתן תשובות ועוד. ורק להמחשה, נתוני בחירות הן טיפה אל מול אוקיאנוס הנתונים שקיים בעולמות תוכן כמו תקשורת, סייבר, ביולוגיה, או רפואה. ואפרופו רפואה, כמו שיש רופאים שמתמחים בכף יד או בסרטן אחד מסוים, כך יש כיום התמחויות ספציפיות בנושא אגירת וניהול הנתונים. קשה להתמצא בכל הידע של תחום מתפתח. עדיין, מומחה ביג-דאטה טוב צריך להכיר את שיטות הארגון כדי לבחור בשיטה המתאימה.

וכמובן שצריך להכיר את השיטות השונות לניתוח נתונים ולדעת מתי ואיך להפעיל כל אחת מהן. מרבית הפוסטים עסקו בשיטות אלו ולכן לא אפרט כאן. אומר רק שלדעתי מומחה ביג-דאטה לא חייב לדעת איך להמציא טכניקות חדשות, או להתמחות במתמטיקה מאחורי השיטות הקיימות. כמובן שחשוב להבין את היסודות, אבל טייס מצטיין לא חייב להבין איך מיוצר כל בורג במטוס שלו. הבעיה היא שמרבית החוקרים באקדמיה עוסקים בפיתוח שיטות, אותם הם מנסים בד"כ על מאגרים שנועדו למחקר. לכן הבוגרים עם רקע מתמטי גבוה, אבל כמעט חסרי רקע או יכולת להתחבר לנתונים בעולם האמיתי.

מומחה ביג-דאטה חייב לדעת איך למדוד את איכות התוצאות ותמיד לחשוד כשהדברים נראים טוב מכדי להיות אמיתיים. למשל בתחום הסייבר, אם תוצאות המחקר מראות שניתן להבחין בין קובץ רגיל לקובץ זדוני (למשל וירוס) באיכות של 95%, כדאי לחזור למשבצת הראשונה ולבדוק איפה טעית. נכון, מדי פעם מתרחשות פריצות דרך בעולם מחקר הנתונים. אך אם התוצאות מראות שיפור משמעותי על כל מאות המחקרים שקדמו לך, כדאי לבדוק שוב את הדברים לפני שרצים לספר לחברה.

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ