מה ההבדל בין למידת מכונה לדאטה סיינס? ראש צוות Core Data Science בפייסבוק מסביר

נמרוד פריאל מפתח כלים שעוזרים לכל מדעני הנתונים בפייסבוק לשפר את המוצרים השונים של החברה ■ בפרק 5, דיברנו עם פריאל על התוצרים השונים של מערכת אוטומטית שמקבלת החלטות בזמן אמת ולמה כל מדען נתונים הוא גם מנהל מוצר

שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
נמרוד פריאל
נמרוד פריאל

בפרק החמישי של הפודקסט דיברנו עם נמרוד פריאל, ראש צוות בקבוצת Core Data Science של פייסבוק, המפתחת מתודולוגיות וכלים שעוזרים לכל מדעני הנתונים בפייסבוק לשפר את המוצרים השונים של החברה באמצעות ניתוח מידע.

0:00
-- : --

דיברנו עם נמרוד על דאטה סיינס, למידת מכונה (Machine Learning) וההבדל ביניהם. למידת מכונה היא תחום במדעי המחשב המאפשר למחשבים ללמוד מנתונים היסטוריים ולייצר מסקנות, או תחזיות, עתידיות עבור נתונים חדשים באופן אוטומטי. התחום, שקיים כבר מספר עשורים, צבר פופולריות כל כך רבה שלעתים אנשים חושבים שכל מה שמדעני נתונים עושים הוא לפתח אלגוריתמי למידה כאלו.

אז מה זה דאטה סיינס?

במהלך התואר השני שלו במתמטיקה מ-NYU עבד נמרוד עם דרו קונווי, שניסה לענות על השאלה באמצעות דיאגרמת הוון המפורסמת של data science שיצר:

דיאגרמה
דיאגרמה

משמעות הדיאגרמה היא שמדען נתונים צריך לשלב כישורים במספר תחומים - סטטיסטיקה ומתמטיקה; כישורי תכנון; ומומחיות בתחום הרלוונטי (domain knowledge) - יכולת להבין את הבעיה העסקית ולבנות פתרון בהתאם. למעשה, כל דאטא סיינטיסט צריך להיות גם קצת מנהל מוצר.

אם התוצר של machine learning הוא בדרך כלל מערכת אוטומטית שמקבלת החלטות בזמן אמת, הרי שדאטא סיינסטיסט יכול לספק שבעה תוצרים שונים:

1. אנליזה תיאורית (descriptive analysis) או דו"ח המכיל ניתוח סטטיסטי שמטרתו לענות על שאלה מסוימת בזמן מסוים.

2. דאשבורד (לוח) שמבצע ניתוחים סטטיסטים וכמותיים על נתונים המתעדכנים כל הזמן. ניתן לחשוב על זה כעל כלי שעוזר לנו לקבל החלטות עבור בעיה מסוימת שוב ושוב.

3. מערכת אוטומטית שמקבלת החלטות בזמן אמת על בסיס המידע שהיא חשופה אליו - מודל machine learning.

4. סט נתונים שיכול לשמש כבסיס לאימון מערכות אוטומטיות מסוגים שונים.

5. מתודולוגיה חדשה כגון מתודולוגיה לתיקון הטיות מובנות בדגימת הנתונים (ראו פרק 4 עם אורי שליט).

6. כלים תשתיתיים - מדען נתונים שפיתח מתודולוגיה מסוימת יכול לפתח חבילת קוד שמממשת את המתודולוגיה ותקל על אנשים להשתמש בה. דוגמאות לכך הן כלים מובנים לניתוח ניסויים כגון A/B testing/Multi arm bandits.

7. הוכחת היתכנות (Proof of concept) - הוכחה של רעיון או תאוריה באמצעות מוצר בסיסי וראשוני.

אחרי שסקר את התוצרים השונים ונתן לנו דוגמאות שונות מתוך הפעילות של מדעני הנתונים בפייסבוק, נמרוד סיפר על שני מדדים עיקריים בהם הוא משתמש כדי להעריך את התוצרים הנ"ל - תנופה (leverage) וחיכוך להשפעה (friction to impact).

לדוגמא, התנופה (leverage) של מתודולוגיה חדשה שפיתח הצוות יכולה להיות אדירה משום שאותה מתודולוגיה יכולה לעזור במגוון של בעיות בתחום שונים, לעומת זאת החיכוך להשפעה (friction to impact) של אותה מתודולוגיה יהיה כנראה גדול מאחר ויש לממש אותה בהתאם לבעיה מסוימת עם הפרמטרים המסוימים הרלוונטיים אליה.

אל תסתפקו בהסבר שלנו - הקשיבו לנמרוד בפרק המצורף.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker