איך מפיקים תובנות מתנועת הספינות בים - ומהי השיטה היעילה לניהול פרויקט דאטא סיינס?

יאיר מזור, ראש תחום הדאטא סיינס בווינדוורד, מספר על הקריירה שלו בתחום מדע הנתונים, כיצד הוא ניגש לבעיה אותה צריך לפתור, מאילו תפקידים מורכב צוות מדעני נתונים ואיך נבנה תהליך העבודה

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
משט ספינות מסורתי ביום החג של אוסטרליה, ב-2011
משט ספינות מסורתי ביום החג של אוסטרליה, ב-2011צילום: אי־אף־פי

עבודתו של מדען נתונים משלבת כישורים בתחומים כמו סטטיטיקה ולמידת מכונה; כישורי תכנות; ומומחיות בתחום הרלוונטי (domain knowledge) - יכולת להבין את הבעיה העסקית ולבנות פתרון בהתאם.

מדעני נתונים רבים מתמקצעים בשיטות מסוימות ועוברים במהלך הקריירה בין חברות המתמחות בתחומים שונים. המעברים האלה מצריכים מהם להיכנס בכל פעם לעולם בעיות חדש, להבין את האילוצים העסקיים בו, מה מאפיין את המידע בו ולהשתמש בידע הזה כדי לפתור בעיות.

בפרק זה דיברנו עם יאיר מזור, ראש תחום הדאטא סיינס בווינדוורד, העוסקת באנליטיקות ואיסוף מודיעין על מצב הים, על החשיבות של מומחיות בתחום הרלוונטי (domain knowledge) ועל שיטות אופרטיביות להיכנס לתחום חדש ולא מוכר.

יאיר סיפר על שאלות שהוא נוהג לשאול את עצמו כדי להבין את עולם הבעיה. לדוגמה - מהם קבועי הזמנים הרלוונטים בעולם התוכן? בתחומים מסוימים ניתן לספק תשובות לשאלות בתוך שעות בעוד שתחומים אחרים מחייבים מתן תשובות מהירות בהרבה. בנוסף, יאיר סיפר על החשיבות  שבהתיידדות עם מומחי התוכן בחברה (domain experts), הכרת האקוסיסטם הרלוונטי על ידי הצטרפות לקהילות מתאימות בלינקדאין ובפייסבוק, וכן - שימוש במוצר של החברה (מפתיע נכון? אבל לא כל כך טריוויאלי למדען הנתונים שרגיל לעבוד עם נתונים ולא עם מוצרים).

רוצים לשמוע עוד על דאטא סיינס ותחומים אחרים בהיי-טק? התחברו לקבוצת הפייסבוק שלנו - האקוסיסטם

נתונים בטאבלט. שיפור התהליכים העסקיים והתשואה להשקעה בעזרת תוכנה לזיהוי מסמכים

מעגל החיים של פרויקט דאטה סיינס

להיכנס ל-domain חדש זו עבודה מאתגרת, אך מדעני נתונים מרבים לעשות זאת משום שגם בחברות העוסקות בתחומים שונים לגמרי, ניתן למצוא הרבה קווי דמיון בעבודתו של מדען הנתונים.

דוגמה אחת לכך היא מעגל החיים של פרויקט דאטה סיינס, שלרוב נראה דומה בחברות שונות. בשלבים הראשונים מדען הנתונים חוקר ולומד את המידע שיש לו (data exploration) מחבר אותו עם מקורות מידע נוספים, מעבד ומנקה את המידע מרעשים (data munging, cleansing and preprocessing). על בסיס המידע המעובד ממקורות שונות הוא מייצר דאטא סט אמין שעליו ניתן ליישם עליו אנליזות בסיסיות.

בשלבים הבאים מבצע מדען הנתונים אנליזות על הנתונים המעובדים על מנת לייצר תובנות מתקדמות יותר. לשם כך נדרש ממנו להבין את עולם התוכן בו הוא עוסק ואת מהות הנתונים והבעיה שלפניו. לבסוף הוא מייצר תחזיות לעתיד על סמך ההתנהגות ההיסטוריות באמצעות מודלים סטטיסטיים ומודלים מבוססי למידת מכונה. כמובן שפרויקטים שונים עשויים להכיל הבדלים מסוימים, והתוצרים של מדען הנתונים עשויים להשתנות מפעם לפעם, אך עדיין השלבים הללו נפוצים מאוד.

עבודת הדאטא סיינס בווינדוורד התפתחה לאורך השנים באופן דומה לשלבים שעובר פרויקט של דאטא סיינס - בשנים הראשונות התמקדו בווינדוורד באיסוף וניקוי המידע הרועש על מיקומי הספינות שמגיע מלוויינים כדי לבנות מיפוי אמין של מצב הספינות בים. לאחר מכן הוסיפו שכבה סמנטית המכילה נתונים נוספים על הספינות ממקורות שונים ומאפשרת לייצר שאילתות מתקדמות על מצב הים.

בשנים האחרונות הם עובדים על ייצור תחזיות עתידיות על הנתונים הללו. לצורך כך הם מנצלים את אותם מודלים של למידת מכונה המשתמשים במידע הסמנטי ומוצאים בו קשרים סטטיסטיים בצורה שאינה אפשרית לאנליסט אנושי.

דילמות בניהול צוותי דאטה סיינס

לאחר שעבד כמדען נתונים וכראש צוות דאטה סיינס התקדם יאיר לתפקיד Head of Data Science בחברה. בתפקיד זה הוא מתווה את מדיניות ניהול המחקר בחברה, דואג לשיתוף פעולה בין גופים שונים, לשיתוף ידע וכלים בין מדעני הנתונים בחברה ומאזן בין פרויקטים קצרים ונקודתיים למטרות מחקריות ארוכות טווח.

כחלק מתפקידו הוא מקדיש מחשבה רבה לשאלה כיצד להרכיב ולנהל צוות מדעני נתונים. נושא זה מהווה אתגר ברמה זו או אחרת בכל חברה המעסיקה מדעני נתונים ונובע מהסיבות שתוארו קודם - אופי העבודה המורכב ומגוון הכישורים הנדרשים.

שאלה אחת שמעסיקה מנהלים רבים בתחום היא מה צריך להיות הרכב הצוותים של מדעני נתונים. בחלק מהחברות ישנם צוותים היברידים הכוללים מדעני נתונים, מפתחים ואנשי Devops. סוג אחר של חברות עובד בקבוצות מחקר הומוגניות העוסקות רק במחקר שתוצריו מועברים לצוותים אחרים לצורך המימוש הסופי. בחברות אחרות ישנן קבוצות מחקר ופיתוח בהן מדעני הנתונים הם גם המפתחים ואנשי ה -devops של עצמם ואחראים על המוצר מקצה לקצה.

גם באופי ניהול הפרויקטים יש מגוון רחב. חברות מסוימות עובדת בווריאציות שונות של Agile כגון kanban או scrum הנפוצות מאוד לצוותי תוכנה וכוללות פירוק השלבים השונים בפרויקט למטלות קטנות ותכנון מדויק של המטלות בצוות לתקופת זמן קצרה ומוגדרת מראש. חברות אחרת עובדות עם מעקב פחות צמוד על התקדמות הפרויקטים השונים ומסתמכות על דיווחי התקדמות שבועיים או בתדירות נמוכה יותר.

מעקב שוטף אחר המשימות חשוב לא רק למנהלים הרלוונטיים. כשבעל הדרישה לפרויקט מחקרי לא עוקב אחריו באופן קבוע מדען הנתונים עלול לעבוד על מחקר ארוך מבלי לקבל פידבק, ובסופו לגלות שהצרכים השתנו, שהפרויקט כבר לא רלוונטי או פשוט לא הובן בצורה מספיק מדויקת.

בהקשר זה הוזכרה שוב גישת ה-"להיכשל מהר" (fail fast). גישה זו לקוחה מרעיון ה-lean startup, אך נפוצה גם בחברות גדולות. הרעיון בבסיסה הוא שכאשר הצורך אינו ברור לחלוטין, כדאי לפתח מוצר מינימלי (Minimum viable product - MVP) כדי לבצע ניסוי עם הצרכנים או האנשים המתאימים בחברה ולבדוק את ההיענות לפני שהולכים לאיבוד בחודשים של מחקר שיכול להתגלות כלא רלוונטי.

בפרק זה יאיר מספר לנו על ווינדוורד וחולק מנסיונו בסוגיות הנ"ל כמדען נתונים וכמנהל.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker