דאטה סיינס זה לא משחק ילדים

גלית ברי וייסברג על הדרך שעשתה מתפקיד של דאטה סיינטיסט בסטארט-אפ שמפתח משחקי חשבון אינטראקטיביים לילדים לחברת מובילאיי

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
מערכת מובילאיי
מערכת מובילאייצילום: Carlos Osorio/אי־פי

מאז שפרצה לתודעה מהפכת ה-Big Data, חלק מחברות ההיי-טק מוצאות את עצמן במקום שבו ללא צוות דאטה סיינס הן כמעט לא רלוונטיות. חברות רבות וותיקות תוהות איך יוכלו לנצל את הנתונים שהן גם ככה שומרות לאורך שנים של פעילות, וחברות צעירות מקדישות תשומת לב רבה לנושא כבר מתחילת הקמתן.

פרק 2 עם גלית ברי וייסברגקרדיט: שיר מאיר לדור וענבר נאור

אז מה נדרש מחברה על מנת שתוכל לנצל את הנתונים שלה בצורה חכמה? ואיך מקימים צוות דאטה סיינס מאפס? ברור שצריך אנשי דאטה סיינס, וצריך דאטה, אך מה עוד חשוב לעשות בדרך למימוש אלגוריתמים לומדים במוצר?

בפרק זה דיברנו עם גלית ברי וייסברג, דאטה סיינטיסט ממובילאיי ובעלת תואר שני במדעי המחשב מהאוניברסיטה העברית, שבתפקידה הקודם היתה הדאטה סיינטיסט הראשונה בסטארט-אפ מטיפיק (Matific), שעוסק בלימוד חשבון לילדים באמצעות משחקים אינטראקטיביים. דיברנו איתה על כמה נקודות שחשוב לשים לב אליהן כשמחליטים לעסוק בדאטה סיינס בחברה.

השלב הראשון, עוד לפני גיוס העובדים, הוא הגדרת מטרות: מה רוצים להשיג מהנתונים? מה הן השאלות העסקיות שעליהן נרצה לענות? למה בעצם להקים צוות דאטה סיינס? שלב זה לעתים יצריך ייעוץ חיצוני של מומחה בתחום.

שלב חשוב נוסף שחברות לעתים נוטות לשכוח הוא שלב הוולידציה של הנתונים. לא מספיק לשמור את הנתונים, יש לוודא שהם מתחברים ויוצרים ביחד תמונה הגיונית, ושתהליך שמירת הנתונים אכן שומר את כל הנתונים בצורה מדויקת. גם לאחר שהנתונים נשמרים בצורה מלאה ומדויקת, יש לנקות ולעבד את הנתונים על מנת להיות מסוגלים ללמוד מהם.

נקודה חשובה נוספת שעלתה היא התאמה וגמישות ניהולית: צוות דאטה סיינס אינו צוות פיתוח רגיל, אלא צוות מחקר. המשמעות היא שמכיוון שאיננו יכולים להיות בטוחים אם הנתונים הקיימים מספיקים על מנת לענות על השאלה שעליה נדרשים לענות בכל פעם, תהליך העבודה אינו ליניארי, אלא איטרטיבי. לדוגמה, ייתכן שאחרי פיתוח אלגוריתם לומד מסוים נבין כי התוצאות אינן מספיק טובות וכי יש להשיג עוד נתונים, לתקן את הנתונים הקיימים בצורה מסוימת, לעשות עליהם עיבוד נוסף או בכלל לבחור בסוג פתרון אחר. לכן לא תמיד ניתן להגדיר קבועי זמן מדויקים לכל הפרויקט מראש, מה שדורש פתיחות מסוימת והבנה מצד המנהלים.

בנוסף שמענו מגלית איך היא מיישמת בפועל מודלים של דיפ לרנינג בעבודתה הנוכחית כדאטה סיינטיסט במובילאיי ועל הרכישה הגדולה של מובילאיי על ידי אינטל.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker