מה ההבדל בין למידת מכונה לדאטה סיינס? ראש צוות Core Data Science בפייסבוק מסביר - Unsupervised - הבלוג של שיר מאיר לדור וענבר נאור - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

מה ההבדל בין למידת מכונה לדאטה סיינס? ראש צוות Core Data Science בפייסבוק מסביר

נמרוד פריאל מפתח כלים שעוזרים לכל מדעני הנתונים בפייסבוק לשפר את המוצרים השונים של החברה ■ בפרק 5, דיברנו עם פריאל על התוצרים השונים של מערכת אוטומטית שמקבלת החלטות בזמן אמת ולמה כל מדען נתונים הוא גם מנהל מוצר

נמרוד פריאל

בפרק החמישי של הפודקסט דיברנו עם נמרוד פריאל, ראש צוות בקבוצת Core Data Science של פייסבוק, המפתחת מתודולוגיות וכלים שעוזרים לכל מדעני הנתונים בפייסבוק לשפר את המוצרים השונים של החברה באמצעות ניתוח מידע.

נמרוד פריאל מפתח כלים שעוזרים לכל מדעני הנתונים בפייסבוק לשפר את המוצרים השונים של החברה ■ בפרק 5, דיברנו עם פריאל על התוצרים השונים של מערכת אוטומטית שמקבלת החלטות בזמן אמת ולמה כל מדען נתונים הוא גם מנהל מוצר - דלג
Unsupervised episode 5Unsupervised

דיברנו עם נמרוד על דאטה סיינס, למידת מכונה (Machine Learning) וההבדל ביניהם. למידת מכונה היא תחום במדעי המחשב המאפשר למחשבים ללמוד מנתונים היסטוריים ולייצר מסקנות, או תחזיות, עתידיות עבור נתונים חדשים באופן אוטומטי. התחום, שקיים כבר מספר עשורים, צבר פופולריות כל כך רבה שלעתים אנשים חושבים שכל מה שמדעני נתונים עושים הוא לפתח אלגוריתמי למידה כאלו.

אז מה זה דאטה סיינס?

במהלך התואר השני שלו במתמטיקה מ-NYU עבד נמרוד עם דרו קונווי, שניסה לענות על השאלה באמצעות דיאגרמת הוון המפורסמת של data science שיצר:

דיאגרמה

משמעות הדיאגרמה היא שמדען נתונים צריך לשלב כישורים במספר תחומים - סטטיסטיקה ומתמטיקה; כישורי תכנון; ומומחיות בתחום הרלוונטי (domain knowledge) - יכולת להבין את הבעיה העסקית ולבנות פתרון בהתאם. למעשה, כל דאטא סיינטיסט צריך להיות גם קצת מנהל מוצר.

אם התוצר של machine learning הוא בדרך כלל מערכת אוטומטית שמקבלת החלטות בזמן אמת, הרי שדאטא סיינסטיסט יכול לספק שבעה תוצרים שונים:

1. אנליזה תיאורית (descriptive analysis) או דו"ח המכיל ניתוח סטטיסטי שמטרתו לענות על שאלה מסוימת בזמן מסוים.

2. דאשבורד (לוח) שמבצע ניתוחים סטטיסטים וכמותיים על נתונים המתעדכנים כל הזמן. ניתן לחשוב על זה כעל כלי שעוזר לנו לקבל החלטות עבור בעיה מסוימת שוב ושוב.

3. מערכת אוטומטית שמקבלת החלטות בזמן אמת על בסיס המידע שהיא חשופה אליו - מודל machine learning.

4. סט נתונים שיכול לשמש כבסיס לאימון מערכות אוטומטיות מסוגים שונים.

5. מתודולוגיה חדשה כגון מתודולוגיה לתיקון הטיות מובנות בדגימת הנתונים (ראו פרק 4 עם אורי שליט).

6. כלים תשתיתיים - מדען נתונים שפיתח מתודולוגיה מסוימת יכול לפתח חבילת קוד שמממשת את המתודולוגיה ותקל על אנשים להשתמש בה. דוגמאות לכך הן כלים מובנים לניתוח ניסויים כגון A/B testing/Multi arm bandits.

7. הוכחת היתכנות (Proof of concept) - הוכחה של רעיון או תאוריה באמצעות מוצר בסיסי וראשוני.

אחרי שסקר את התוצרים השונים ונתן לנו דוגמאות שונות מתוך הפעילות של מדעני הנתונים בפייסבוק, נמרוד סיפר על שני מדדים עיקריים בהם הוא משתמש כדי להעריך את התוצרים הנ"ל - תנופה (leverage) וחיכוך להשפעה (friction to impact).

לדוגמא, התנופה (leverage) של מתודולוגיה חדשה שפיתח הצוות יכולה להיות אדירה משום שאותה מתודולוגיה יכולה לעזור במגוון של בעיות בתחום שונים, לעומת זאת החיכוך להשפעה (friction to impact) של אותה מתודולוגיה יהיה כנראה גדול מאחר ויש לממש אותה בהתאם לבעיה מסוימת עם הפרמטרים המסוימים הרלוונטיים אליה.

אל תסתפקו בהסבר שלנו - הקשיבו לנמרוד בפרק המצורף.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#