המספרים מאחורי תעשיית הדאטה סיינס בישראל - הבלוג של עמרי גולדשטיין - TheMarker
 

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

תואר שני ומשכורת של 30 אלף ש' בחודש: המספרים מאחורי תעשיית הדאטה סיינס בישראל

סקר גדול חושף מי הם מדעני הנתונים בישראל, מול אילו אתגרים הם עומדים ואיך השכר שלהם מושפע מגורמים כמו ניסיון והשכלה אקדמית

7תגובות
עובדי הייטק בכנס מפתחים של גוגל
רויטרס

בפוסט הקודם סיפרתי על סקר ענק שנערך בקרב למעלה מ-16 אלף משמשים באתר קאגל, הבית של מדעני ומדעניות הנתונים. הסקר הצטרף למגמה חדשה של דמוקרטיזציית המידע בכלל, ובתעשיית ההיי-טק בפרט.

אם בעבר עובדים שהתעניינו בתעשייה הסתמכו בעיקר על סקרי שכר של חברות השמה וכתבות איכותניות במדורי ההיי-טק, בשנים האחרונות התארגנויות ברשתות החברתיות מאפשרות קיום של סקרים הרבה יותר מקיפים, וככל הנראה גם אמינים יותר. דוגמא לכך היא הסקר הגדול של קבוצת הפייסבוק "צרות בהיי-טק"', ובארה"ב האתר Glassdoor שמאפשר לעובדים ועובדות לקבל תמונה מאוד מקיפה על מקומות העבודה השונים.

כל מה שצריך לדעת על קריירה בהייטק
כנסו למתחם

בשבועות האחרונים ערך אורי אליאבייב, מנהל קהילת מדעני הנתונים בישראל (Machine & Deep learning Israel), סקר דומה בקרב 225 עונים שרובם המוחלט מגדירים את עצמם כמדעני נתונים או מפתחי אלגוריתמים בתחום המידע ולמידת המכונה. בהשוואה לסקרים הכלליים שמתפרסמים על ידי חברות ההשמה, מדובר במסמך הרבה יותר מקיף. ראשית, על אף שאין לי מושג על כמה דגימות מתבססים הסקרים הללו, אני מתקשה להאמין שיש כ-200 נשאלים לתפקיד (לרוב הסקרים כוללים את כל שדרת התפקידים האפשריים בהיי-טק: ממפתחי צד שרת, צד לקוח, אנשי QA ועד לפיננסים והנהלה). שנית, סקרי השכר עוסקים, ובכן, בשכר בלבד. זאת על אף שזה רחוק מלהיות הנתון היחיד שמעניין את העובדים.

לפני שניגש לנתונים, וכחלק מהגישה הספקנית והזהירה שאנסה לקדם בבלוג הזה, ראוי גם להזכיר את חולשותיו של סקר כזה: ראשית, גודל המדגם. בעוד ש-225 עונים בהחלט מאפשרים לנו להגיע למספר תובנות, חיתוכים ופילוחים רבים מדי של הנתונים עלולים להוביל אותנו לתתי קבוצות קטנות מאוד ולכן לתוצאות מאוד לא מובהקות. שנית, עלולות להיות הטיות שיטתיות בסקר מכיוון שהעונים לא נבחרו באקראי אלא בחרו לענות על הסקר. אתייחס לנקודות אלו במקומות בהם אני חושש שההטייה משמעותית מספיק.

רוצים לדבר עוד על קריירה בהיי-טק? התחברו לקבוצת הפייסבוק שלנו - האקוסיסטם

.
.

דמוגרפיה ושכר

אחרי ההקדמה, זה הזמן לצלול לנתונים:

רק 16% מהעונים הן נשים. באופן מדהים למדי, האחוז הזה זהה כמעט לחלוטין לשיעור העונות מקרב כלל הנשאלים בסקר העולמי של קאגל, כך שמהבחינה הזו ישראל לא שונה משאר העולם.

הנתון המתבקש הבא הוא כמובן פער השכר בין גברים לנשים. מכיוון שמדובר בשני נושאים נפיצים (שכר והפער המגדרי) זה זמן טוב לבחון את ההטיות שעלולות להיות בסקר שכזה. ראשית, יש מקום לחשוד שסקרי שכר המבוססים על דיווח עצמי יהיו מוטים למעלה מכיוון שככל שאדם מרוויח יותר הוא עשוי לחוש יותר בנוח לשתף זאת בסקר.

שנית, סביר להניח שהעונים על הסקר הם הפעילים יותר בקהילה ויתכן וגם זה מצביע על ניסיון או בכירות. שלישית, כפי שנראה, יש במדגם ייצוג יתר לעוסקים בלמידה עמוקה (Deep Learning), תחום שנמצא כיום בחזית הטכנולוגיה ובהתאם גם התגמול עליו. יחד עם זאת בהחלט מדובר במידע בעל הרבה מאוד משמעות.

השכר הממוצע במדגם הסתכם במעט יותר מ-29 אלף שקל בחודש. בקרב הגברים שענו על שאלת השכר ועובדים במשרה מלאה השכר עמד על 30 אלף שקל בחודש. 2,500 שקל יותר משכרן של הנשים בסקר, עבורן השכר הממוצע היה 27,500 שקל בחודש. הנתונים האלו מאששים דברים שכבר ידענו. ראשית, השכר בתחומי הדאטה גבוה מאוד (השכר הממוצע בישראל הוא 9,801 שקל בחודש). שנית, השכר הממוצע של גברים גבוה משל נשים בכ-8%.  גם כאן המספרים בישראל מזכירים מאוד את המספרים שעלו מהסקר העולמי בקאגל שגם בו שכר הנשים היה נמוך ב-8%.

לשכר עצמו יש התפלגות רחבה כך שהממוצע לא תמיד מספר הכל. 53% מהמשיבים השתכרו בין 20-35 אלף שקל בחודש, אולם הזנב הארוך המשיך עם 12% בעלי שכר גבוה מ-40 אלף שקל לחודש.

להשכלה ולשנות הניסיון השפעה גדולה מאוד על השכר, אולם גם כשלוקחים אותן בחשבון, פער השכר מתקיים כמעט בכל החתכים:

.
.

באופן ברור השכר עולה בחדות עם הניסיון. וכן ניתן לראות שבכמעט כל חתך גברים עדין משתכרים יותר מנשים. נראה שבשנה הראשונה שכר הנשים גבוה יותר, אבל זוהי ככל הנראה מקריות שנובעת ממספר קטן של דגימות. מקרב חמש הנשים בעלות פחות משנת ניסיון, לשלוש יש תואר שני ולאחת דוקטורט. לעומת זאת, אצל הגברים, רק ל-5 מתוך ה-14 בקטגוריה היה תואר שני ואף אחד לא החזיק בדוקטורט.

ההשכלה משפיעה, שלא במפתיע, באופן דומה:

.
.

שווה לציין שהמדגם כלל רק שלוש נשים עם דוקטורט כך שנתוני השכר בנוגע לקבוצה הזו נטולי כל מובהקות סטטיסטית.

כך שלפחות בסקר הנוכחי, גברים מרוויחים יותר גם כשלוקחים בחשבון את שנות הניסיון, היקף המשרה וההשכלה (הערה טכנית – הדרך המקובלת לגשת לבעיות כאלו תהיה באמצעות רגרסיה לינארית, ורגרסיה כזו אכן אישרה שפער השכר המגדרי נותר גם כששולטים בהשכלה, בניסיון ובסוג החברה, אם כי הוא מצטמצם. לניתוח מעמיק הרבה יותר בנושא הרחב של פערי שכר בין המינים אני ממליץ על הפוסט המצוין של הדס פוקס בבלוג דעת מיעוט).

ראינו אפוא שלהשכלה יש השפעה משמעותית על השכר. כיצד נראית ההתפלגות ההשכלה של המשיבים?

.
.

ל-50% מהמשיבים יש תואר שני, ולעוד 10.6% יש דוקטורט. ברור שמדובר במספרים מאוד גבוהים – ישראל אמנם אחת המדינות המשכילות בעולם, אולם רק ל-46% מהאוכלוסיה הכללית יש תואר ראשון. המספרים האלו די דומים לתוצאות הסקר העולמי – שם ל-54.8% מהמשיבים היו בעלי תואר שני ו-16.1% החזיקו בדוקטורט.

הנתון האחרון שחסר לנו להשלמת הדמוגרפיה הוא גיל המשיבים. באופן לא מפתיע, עיקר המסה היא בין גיל 28-35, הגם שזנב ההתפלגות ארוך מספיק על מנת לכלול אנשים עד גיל 56:

.
.

גיאוגרפיה ושכר

כמעט חצי מהמשיבים גרים בתל-אביב, ועוד יותר מרבע מתגוררים בערי המרכז מחוץ לתל אביב. מיעוט מבוטל של 3.67% מן העונים גרים בעיר הבירה – ירושלים. זאת למרות שיותר מ-9,500 עובדים מועסקים בפארק ההיי-טק בהר חוצבים. הרוב המוחלט של העונים עובדים קרוב יחסית למקום מגוריהם. עבור אלו שעובדים מחוץ למחוז מגוריהם, מדובר בעיקר בעובדים שנוסעים מביתם באזור המרכז לתל-אביב.

.
.

יתכן ורבים מעדיפים לעבוד בתל אביב מפני ששם השכר הממוצע הוא הגבוה ביותר, מעל מחוז המרכז ומשמעותית יותר מבחיפה. מיעוט המשיבים הקשה על היכולת להסיק מסקנות משמעותיות עבור שאר האיזורים.

.
.

איך מוצאים עבודה?

46.4% מהעונים השיבו שמצאו עבודה דרך חבר\ה, או בן\ת משפחה, רק 3.56% מצאו עבודה בעזרת הרשת החברתית המקצועית לינקדאין. השאר מתחלקים באופן דומה בין לוחות שונים, מגייסים ואתרי החברה עצמם.

.
.

איך נראית העבודה בפועל?

השאלות הבאות עוסקות באתגרים ובעבודה היומיומית של מדעני הנתונים. ראשית, באיזה נתונים מדובר? התשובה הנפוצה ביותר היתה דאטה רלציוני (Relational Data), הכוונה היא לנתונים שמאוחסנים לרוב בבסיסי נתונים מבוססי SQL, המכילים סוגים שונים של מידע (למשל – מידע רוחבי על לקוחות, עסקות נדל"ן או נתוני פרסום). התשובות הנפוצות הבאות בתור היו טקסט (עבור חברות שמתעסקות בעיבוד שפה טבעית, NLP), ותמונות\וידאו (חישבו למשל על העבודה בחברה כמו Mobileye שמפתחת בין היתר טכנולוגיות לזיהוי אובייקטים בתמונה).

השכר הממוצע בתחומי עיבוד השפה הטבעית והראייה הממוחשבת מעט גבוה יותר. ייתכן והדבר נובע מכך שפריצות הדרך הגדולות ביותר בתחום למידת המכונה בשנים האחרונות הגיעו מתחום הלמידה העמוקה (Deep Learning), שהוא בעיקר מיתוג מחדש של מודלים המבוססים על רשתות ניורונים. מדובר במודלים שעיקר העוצמה שלהם היא בעבודה עם מידע טבעי (אם כי בהחלט לא מוגבלת רק למידע מהסוג הזה), כמו טקסט, אודיו, תמונה או וידאו. מודלים מבוססי עצים, לעומת זאת, שימושיים הרבה יותר למידע מעורבב, כמו זה שלרוב נמצא בדאטה רלציוני (אם כי בשנים האחרונות רשתות ניורונים החלו לחדור גם לתחומים האלו).

.
.

ניכנס צעד אחד עמוק לרמת השיטות: ניתן לראות שרשתות ניורונים הן הכלי הנפוץ ביותר. זו עשויה להיות עוד עדות להטיה במדגם (וכאמור אולי אחת הסיבות לשכר הממוצע הגבוה). בסקר העולמי של קאגל, רשתות ניורונים דורגו במקום הרביעי בלבד, עם 37.6 אחוזי שימוש בקרב העונים. במקום השני נמצאת רגרסיה לוגיסטית. מדובר באחת השיטות הפשוטות ביותר (ולמי שמכיר, למעשה מדובר בתרגום של רגרסיה לינארית לבעיית סיווג). אחריה מגיעות מספר שיטות מבוססות עצים ורשתות ניורונים ספציפיות (CNN - Convolutional neural network, RNN - Recurrent neural network).

.
.

השאלה האחרונה עסקה באתגרים הניצבים בפני מדעני הנתונים. בדומה לחבריהם למקצוע ברחבי העולם, גם בישראל הבעיה העיקרית מולה ניצבים היא לרוב מעט מדי דאטה, או דאטה מלוכלך מדי. כך שלא משנה כמה מתוחכמים המודלים, כשאין מידע, לא ניתן להפיק ממנו כלום (מצב כזה מכונה לפעמים GIGO - Garbage in, Garbage out).

.
.

האתגר השלישי הוא מחסור במדעני נתונים ובכישורים. מה שמחזיר אותנו למסקנה מהסקר העולמי והיא שיש עוד מקום למצטרפים ומצטרפות חדשים. אני מקווה שאותם מצטרפים\ות יוכלו להכווין את עצמם ואת הציפיות שלהם טוב יותר לאור הנתונים.



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#