דור המהפכה: מי אתם, מדעני הנתונים החדשים? - מבוסס נתונים - הבלוג של עמרי גולדשטיין - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

דור המהפכה: מי אתם, מדעני הנתונים החדשים?

בתחום הפורח יש עוד מקום להרבה מצטרפים חדשים. לפני שהם קופצים לבריכה, הנה כמה מגמות שכדאי להם לשים לב אליהן, מסקר ענק שנערך באחרונה בקרב העוסקים בתחום

בפוסט הראשון שלי הזכרתי את האתר קאגל. מדובר בעיני באחת התחנות החיוניות בדרך המקצועית של מדעני נתונים (או דאטה-סיינטיסטים, שמישהו ימצא כבר עברות ראוי), לכל הפחות אם הם חדשים בתחום. קאגל התחילה כפלטפורמה לתחרויות, כשחברות, גופי מחקר או סתם אנשים פרטיים פירסמו נתונים וביקשו מהמשתמשים לכתוב אלגוריתמים לחיזוי על סמך הנתונים (ביחס למטרה מוגדרת כלשהי) - בין אם תמורת תשלום למנצח או רק תמורת הזכות להשתתף בתחרות וללמוד.

עם השנים קאגל התפתחה ואיפשרה למשתמשים להעלות מאגרי נתונים או לכתוב סקריפטים ללא מטרה מוגדרת מראש. קאגל נרכשה על ידי גוגל לפני מספר חודשים, וכיום מדובר בקהילה גדולה ושוקקת מאוד, שמתאימה גם למי שרק מתעניין בניתוחים סטטיסטיים כצופה, או מחפש נתונים על ספורט, פוליטיקה, תרבות ועוד (למעשה רק 24% מהמשתמשים כיום הם מדעני נתונים).

בחודשים האחרונים נערך בקאגל סקר גדול מאוד בקרב למעלה מ-16 אלף משתמשים מכל העולם, שתוצאותיו פורסמו לפני כשבוע וכמה מממצאיו מעניינים למדי. בעוד שככל סקר, גם הסקר הזה לא חף מהטיות (מי הם האנשים שבוחרים לענות על הסקרים? מי הם האנשים שבוחרים לחשוף יותר או פחות פרטים?), הוא ככל הנראה מספק כמה תובנות לגבי התעשייה החדשה הזו.

ראשית, הגיל החציוני בקרב כל העונים היה 30. השונות בין המדינות היא גדולה – מ-25 בהודו עד ל-34 בישראל (בדומה לקנדה, אוסטרליה, איטליה ועוד מספר מדינות). לא היתה אף מדינה שבה הגיל החציוני היה גבוה מבישראל, גם לא מדינות מערביות עם ילודה נמוכה ואוכלוסייה מזדקנת כמו יפן. כך שייתכן שהגיל החציוני הגבוה בקרב הישראלים נובע בין היתר גם משירות החובה שמונהג בישראל.

התפלגות הגילים

באופן מעניין למדי, יותר מ-40% מהעונים היו בעלי תואר שני ועוד 15.6% בעלי דוקטורט. בישראל המספר הזה עלה ללא פחות מ-54.8% בעלי תואר שני ו-16.1% דוקטורים. גם זה לא מפתיע בהתחשב בכך שישראל היא אחת המדינות המשכילות בעולם. אמנם במדינות כמו הודו או מצרים המגמה מתהפכת לטובת בעלי התואר הראשון (מעל 50%), אולם גם שם הרוב המוחלט של הקאגלרים הם בעלי תואר ראשון, שני או שלישי (רובם הגיעו ממדעי המחשב, מתמטיקה, סטטיסטיקה או הנדסה).

אולם, אף שרוב המשתמשים הם בעלי השכלה גבוהה מאוד, כשנשאלו כיצד הם ממליצים ללמוד דאטה סיינס, התשובות הפופולריות ביותר היו קאגל (בוודאי נתון מוטה), אתרי קורסים מקוונים (קורסרה הוא הפופולרי ביניהם), שאלות ותשובות באתרים מקצועיים, סרטוני יוטיוב, פרויקטים אישיים ובלוגים. האוניברסיטה דורגה רק במקום השמיני - אף שרוב המשתמשים החשיבו לימודים באוניברסיטה כחשובים או חשובים מאוד.

שני הנתונים הסותרים הללו מייצגים את שני הצדדים בוויכוח על הפערים החברתיים ועתיד תעשיית המידע, במציאות שבה התעשייה הזו נעשית יותר ויותר דומיננטית. מצד אחד נראה שמעולם לא היה קל יותר לרכוש ידע שימושי ומבוקש. כל שצריך הוא חיבור לאינטרנט וידיעת השפה האנגלית. מצד שני, נראה שמי שמנצלים את המצב הזה, לפחות על פי תוצאות הסקר, אלו בעיקר המשכילים ביותר, כלומר אלו שמלכתחילה לא סבלו מבעיות נגישות לידע.

סוגייה חברתית אחרת היא הפער המגדרי. נשים היוו רק 16.7% מהמדגם, והשכר החציוני שלהן היה נמוך ב-8% - כ-14.6 שקל בחודש לנשים ו-15.8 שקל לגברים. שימו לב שמדובר בנתונים חציוניים מכל המדינות שנסקרו, וכמובן שהנתונים מתורגמים ממשכורת שנתית בדולרים. שווה לזכור שסקרי שכר המבוססים על דיווח עצמי עלולים להיות מוטים. בקרב אלו שהגדירו את עצמם כחוקרים, נשים מהוות יותר מ-25% מהעונים, אבל רק קצת יותר מ-10% בקרב מהנדסי התוכנה.

באופן כללי השכר החציוני הגבוה ביותר (בקרב הנשאלים) היה בארה"ב (108 אלף דולר בשנה, שהם כ-31.5 אלף שקל בחודש). אחרי ארה"ב הגיעו שוויץ, אוסטרליה, נורווגיה, דנמרק, הולנד ושימו לב – ישראל. כן, לפני גרמניה, קנדה, בריטניה ואחרות. השכר החציוני בישראל היה 21.6 אלף שקל בחודש, אולם שימו לב שהנתונים מבוססים על 30 עונים בלבד.

שיעור הנשים

אם הנתונים האלו נכונים, הדבר מחזק את התחושה שההיי-טק הישראלי הוא סיפור נפרד מהכלכלה הישראלית. השכר החציוני בארה"ב הוא כ-43 אלף דולר בשנה, כלומר כ-40% מהשכר החציוני בקרב המשיבים לסקר. בישראל השכר החציוני הוא כ-6,400 שקל בחודש (בערך 23 אלף דולר בשנה). במילים אחרות, השכר החציוני בישראל הוא רק 30% מהשכר החציוני בקרב המשיבים הישראלים (המעטים).

ויש גם אפשרות אחרת – מכיוון שהשכר עולה עם הגיל (כפי שמראה גם הסקר הזה), וכבר ראינו שהגיל החציוני בישראל הוא הגבוה ביותר, השכר החציוני בישראל עשוי להיות מוטה כלפי מעלה ביחס למדינות אחרות.

העובדה שיש אינטראקציה בין המשתנים השונים מקשה על היכולת להסיק מסקנות מגרף אחד בודד. כך, למשל, אם נסתכל אך ורק על תחום הלימודים, נגלה למרבה ההפתעה שבוגרי מדעי הרוח הם בעלי השכר הגבוה ביותר (86 אלף דולר בשנה, שהם כ25 אלף שקל בחודש, לעומת שכר חציוני של 37 אלף דולר בשנה בלבד לבוגרי מדעי המחשב). זוהי דוגמה מצוינת לשקר סטטיסטי. ברגע שנפלח את הנתונים לפי מדינות, נראה שבכל מדינה בוגרי מדעי המחשב מרוויחים, על פי הסקר לפחות, יותר מבוגרי מדעי הרוח.

אבל בכל זאת, הנתון הקודם אינו טעות. הסיבה לכך היא ששיעור בוגרי מדעי הרוח בארה"ב הוא גבוה משמעותית מבמדינות העולם השלישי, מחד, והשכר בארה"ב הוא משמעותית גבוה יותר בכל המקצועות, מאידך. כך שבוגרי מדעי המחשב במדינות העולם השלישי מורידים את השכר החציוני בתחומם, אולם בוגרי מדעי הרוח במדינות הללו הם מעטים מדי בכדי להשפיע על החישוב הכולל בצורה משמעותית.

שכר חציוני

אז מה כדאי ללמוד למי שרוצה להיכנס לתחום?

מבחינת כלי העבודה, כמעט כל חיתוך מעלה ש-Python היא הפופולרית ביותר, כש-R במקום השני. היתה אוכלוסייה אחת יוצאת דופן – הסטטיסטיקאים, שעדיין מעדיפים את R (פייתון היא שפת תכנות דינמית, קריאה ופשוטה יחסית, בעוד ש-R היא שפת תכנות וסביבת עבודה ייעודית לסטטיסטיקה). פייתון גם הופיעה בתור השפה המומלצת ביותר למי שרוצה להיכנס לתחום.

בכל הנוגע לעתיד התחום, הרוב המוחלט של העונים השיבו שכלי העתיד (הקרוב לכל הפחות) הם טנזור פלואו (Tensor Flow – חבילה פופולרית ללמידה עמוקה של גוגל) ופייתון. כמו כן, רוב המשיבים הסכימו שהכיוון הכללי של התעשייה הוא למידה עמוקה.

בתשובה לאתגרים העיקריים שעמם המשתמשים מתמודדים בחיי היומיום – התשובות הפופולריות ביותר עסקו בקושי בהשגת נתונים ובצורך לנקות אותם. התלונה הנפוצה הבאה היא מחסור במדעני נתונים. במלים אחרות, יש עוד הרבה מקום למצטרפים חדשים, אבל כדאי שידעו שאימון מודלים, ניתוח נתונים ומתן תחזיות עלולים להיות רק חלק מהעבודה, לצד לא מעט מרדף אחרי נתונים ועיבודם.

מי שרוצה להיכנס עמוק יותר, מוזמן לעשות זאת כאן, כאן וכאן.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#