מבוסס נתונים

סקר מדעני הנתונים השנתי: מהו השכר הממוצע וכמה נשים יש במקצוע?

כ-570 מדעני ומדעניות נתונים לקחו חלק בסקר השנתי הגדול של המקצוע ■ מהם פערים השכר בין נשים וגברים, איזה תואר אקדמי נדרש כדי להתקדם באופן האידיאלי בקריירה ומהו טווח הגילאים של המועסקים?

בדומה לשנה שעברה, גם השנה ערך אורי אלייבייב, מנהל קהילת Machine & Deep learning Israel את סקר הדאטה-סיינטיסטים הגדול השני. הסקר, שהיה גדול יותר הפעם (מ-225 ל-569 משיבים), מאפשר לנו לבחון מגמות בתעשייה הצעירה הזו, ולצלול מעט עמוק יותר מבשנה שעברה. חלק מתוצאות הסקר מובאות כאן בפוסט שלפניכם, לקריאת הדו"ח המלא בקרו בבלוג של אורי אלייבייב.

דמוגרפיה

מתכנתים
ביזאבו
להמשך הפוסט

אחרי ששקע האבק: 6 תובנות של מדען נתונים ממערכת הבחירות

מהלך "שתיית המנדטים" של הליכוד, שדובר עליו רבות, אכן הצליח למשוך מצביעים ממפלגות הימין הלא-דתיות (כולנו, ישראל ביתנו), אך כמעט ולא מהבית היהודי או מש"ס ■ מצביעי עלה ירוק התפצלו בערך חצי-חצי בין כחול לבן לבין זהות

כותב אורח: איתמר מושקין

מששכך אבק הקמפיינים, ונספרו הקולות עד אחרון החיילים והימאים, אנו יכולים להתפנות ולהצטרף לגדודי מדעני הנתונים (המקצועיים והחובבים) המסתערים על התוצאות ומגבשים שלל תובנות מעניינות (למשל כאן), ואף מזהים בגבורה טעויות ו/או זיופים לא מעטים.

קלפי
אליהו הרשקוביץ
להמשך הפוסט

מדינה מקוטבת: מסקנות ויזואליות לאחר בחירות 2019

בישראל קשה יותר למדוד את הקיטוב בגלל השיטה הרב-מפלגתית. אבל האמת היא שמערכת הבחירות האחרונה היתה בין-גושית במידה ברורה כל כך שניתן להתייחס אליה בצורה דומה

הבחירות לכנסת מאחורינו אמנם, אבל החלק המעניין באמת החל בבוקר רביעי, כשוועדת הבחירות פירסמה את נתוני את קובץ התוצאות. לא יותר משעות אחדות לאחר מכן כבר ניתן היה למצוא ניתוחים וויזואליזציות מעניינים מהרשת, כמו למשל המפה האינטראקטיבית הזו בבלוג המצוין "כמותית", שיכולה לקחת שעות מזמנכם. בפוסטים הקרובים אנסה לספר את הסיפור של בחירות 2019 על פי הנתונים.

ישראל היא מדינה מקוטבת

פתקי בחירות בכינוס מפלגת הליכוד
תומר אפלבאום
להמשך הפוסט

דאטה סיינס לבוחרים: מה אפשר ללמוד מהפריימריז של הליכוד?

קורא מסור של הבלוג נענה לבקשתי לדאטה, והעביר לי את תוצאות הפריימריז של הליכוד: להלן ניתוח התוצאות והמסקנות

בפוסט הקודם ניתחנו את תוצאות הפריימריז במרצ, שהיתה המפלגה היחידה שפירסמה באופן מסודר את התוצאות. קורא מסור של הבלוג נענה לבקשתי לדאטה מעניין כפי היא מופיעה בצד שמאל של המסך שלכם (עכשיו גם אתם יכולים), ושלח לי את תוצאות הפריימריז בליכוד.

מכיוון שניתוח הדאטה בפוסט הנוכחי זהה לניתוח בפוסט הקודם אני ממליץ לקרוא גם את הפוסט הקודם במידה וחלק מצעדי הניתוח אינם ברורים. חשוב לציין שהדאטה מעודכן לספירת הקולות הראשונה ולא כולל מספר תיקונים שנערכו בספירה נוספת, לאחר שנתגלו אי-אילו אי סדרים בתוצאות.

ביבי מדבר בטלפון
קובי גדעון / לע"מ
להמשך הפוסט

דאטה סיינס לבוחרים: מה אפשר ללמוד מתוצאות הפריימריז?

הכרזה על בחירות, עבור חובבי פוליטיקה, חובבי דאטה ובעיקר עבור החיתוך של שתי הקבוצות הללו היא יום חג ■ מדובר בכמות נתונים מכובדת עליה ניתן להחיל מודלים של עיבוד נתונים והפקת תובנות

ב-9 באפריל תתקיימנה הבחירות לכנסת ה-21, ובעוד אחדים מבכים את בזבוז משאבי הציבור, הקיטוב והשיח הרדוד שבחירות בדרך כלל מביאות עימן, עבור חובבי פוליטיקה, חובבי דאטה ובעיקר עבור החיתוך של שתי הקבוצות הללו מדובר ביום חג.

החגיגות הלא הרשמיות החלו כבר עם הפוסט הקודם בנושא של איתמר מושקין, ממשיכות עם פרויקטים כגון "הסוקר האוטומטי" (ובפרט "הסקר השקוף"), ויימשכו עד לבחירות ולאחריהן עם מספר פוסטים בנושא, הן בבלוג זה והן ברחבי הרשת (אל תדאגו, נדאג לקשר אתכם למיטב).

רולטה
Dreamstime
להמשך הפוסט

הקרב על היד החמה

אנשים נוטים להאמין באפקט היד החמה בספורט ובחיים בכלל, כשהרבה פעמים הוא לא קיים כלל ■ יודעי דבר מאמינים ש"יד חמה" בספורט לא קיימת כלל, אך בפועל, בשנים האחרונות, נראה שהוא דווקא כן קיים - יותר חלש ממה שהאוהדים היו רוצים להאמין, אך יותר חזק ממה שחושבים המומחים

ב-9 בדצמבר 2004 נתן טרייסי מגריידי, שחקנה של יוסטון רוקטס, את אחת מההופעות המופרעות ביותר של שחקן כדורסל אי פעם. ב-33 השניות האחרונות של הרבע האחרון במשחק נגד סן אנטוניו ספרס, הוא מחק בעצמו הפרש של 10 נקודות ב-4 שלשות רצופות תחת שמירה כבדה, כולל אחת בשתי השניות האחרונות. הופעה זו של מגריידי היא אחת מהעדויות לתופעה הידועה של "יד חמה" – שחקן או שחקנית שמתעלים ברגע מסוים וקולעים באחוזים גבוהים מבדרך כלל.

חלק מהקוראים, בפרט יודעי הדבר שמעבירים את ארוחות השישי עם המשפחה וארוחות הצהריים במשרד בהפרכת אמונות מקובלות, כבר מכירים את המשך הסיפור. לכאורה. לאורך העשורים האחרונים התפרסמו מספר לא קטן של מאמרים מדעיים בנושא היד החמה, חלקם הגדול מפריך את עצם קיומה של התופעה ותולה אותה  בחוסר היכולת של בני אדם לעקוב אחר תבניות אקראיות. בפוסט הזה אני רוצה להיכנס לעומקו של הקרב על היד החמה ולמעורבות הישראלית העמוקה והמפתיעה בקרב הזה, משני צידי המתרס. ספוילר – אל תספידו את היד החמה מהר כל כך.

מייקל ג'ורד
John Swart / AP
להמשך הפוסט

תזוזת מצביעים: איזו מפלגה התחזקה על חשבון האחרות?

בכל סיבוב בחירות אנחנו בודקים את השינוי במצב המפלגות ביחס לבחירות הקודמות, אבל צלילה לנתונים מאפשרת לתאר ממי מפלגה שהתחזקה גנבה את המצביעים

כותב אורח: איתמר מושקין

אחת לכמה שנים, אנו האזרחים נקראים לקלפי כדי לבחור באיזו מפלגה אנו תומכים. חלקנו מצביעים בנאמנות (אולי אפילו עיוורת) לאותה מפלגה, וחלקנו לא טורחים להצביע מלכתחילה; בין לבין, רובנו הגדול מתלבט בכל בחירות, ומצביע למפלגה שהצליחה לשכנע אותו הפעם.

בחירות מוניציפליות ברמת השרון, ב-2016
דודו בכר
להמשך הפוסט

המסלול שלי לתפקיד דאטה סיינטיסט

דאטה סיינטיסט הוא כל מי שמפיק/ה תובנות כלשהן מנתונים, על ידי שימוש במודלים מעולם למידת המכונה ■ בוגרי ובוגרות מדעי המחשב, הנדסת חשמל, פיזיקה ומתמטיקה יוכלו להשלים את ההכשרה הנדרשת לתפקיד תוך כחצי שנה

קשה לחשוב על דרך יומרנית יותר להתחיל פוסט מ"אנשים רבים שואלים אותי". יחד עם זאת, אני לא יכול להתעלם מהעובדה שבחודשים האחרונים יותר ויותר אנשים אכן שואלים אותי איך נעשיתי דאטה סיינטיסט. או, ליתר דיוק, איך נהיים דאטה סיינטיסט. לשאלה השנייה קשה לתת תשובה מוחלטת, אבל אני יכול בהחלט לספר איך אני הפכתי לאחד כזה.

הסיבה שמלכתחילה מדובר בשאלה מעניינת היא כמובן העובדה שמדובר בתחום חם מאוד. הסיבה שזו בכלל שאלה (הרי אף אחד לא שואל "איך נהיים מתכנת", על אף שהשוק מבקש את אלו במידה דומה) היא העובדה שמדובר בתחום חדש, ומסיבה זו ומסיבות אחרות הגבולות וההגדרות שלו רכים יותר.

סקי, רכבל, צילום מלמטה
Nicolesmizrahi | Dreamstime
להמשך הפוסט

תואר שני ומשכורת של 30 אלף ש' בחודש: המספרים מאחורי תעשיית הדאטה סיינס בישראל

סקר גדול חושף מי הם מדעני הנתונים בישראל, מול אילו אתגרים הם עומדים ואיך השכר שלהם מושפע מגורמים כמו ניסיון והשכלה אקדמית

בפוסט הקודם סיפרתי על סקר ענק שנערך בקרב למעלה מ-16 אלף משמשים באתר קאגל, הבית של מדעני ומדעניות הנתונים. הסקר הצטרף למגמה חדשה של דמוקרטיזציית המידע בכלל, ובתעשיית ההיי-טק בפרט.

אם בעבר עובדים שהתעניינו בתעשייה הסתמכו בעיקר על סקרי שכר של חברות השמה וכתבות איכותניות במדורי ההיי-טק, בשנים האחרונות התארגנויות ברשתות החברתיות מאפשרות קיום של סקרים הרבה יותר מקיפים, וככל הנראה גם אמינים יותר. דוגמא לכך היא הסקר הגדול של קבוצת הפייסבוק "צרות בהיי-טק"', ובארה"ב האתר Glassdoor שמאפשר לעובדים ועובדות לקבל תמונה מאוד מקיפה על מקומות העבודה השונים.

עובדי הייטק בכנס מפתחים של גוגל
רויטרס
להמשך הפוסט

דור המהפכה: מי אתם, מדעני הנתונים החדשים?

בתחום הפורח יש עוד מקום להרבה מצטרפים חדשים. לפני שהם קופצים לבריכה, הנה כמה מגמות שכדאי להם לשים לב אליהן, מסקר ענק שנערך באחרונה בקרב העוסקים בתחום

בפוסט הראשון שלי הזכרתי את האתר קאגל. מדובר בעיני באחת התחנות החיוניות בדרך המקצועית של מדעני נתונים (או דאטה-סיינטיסטים, שמישהו ימצא כבר עברות ראוי), לכל הפחות אם הם חדשים בתחום. קאגל התחילה כפלטפורמה לתחרויות, כשחברות, גופי מחקר או סתם אנשים פרטיים פירסמו נתונים וביקשו מהמשתמשים לכתוב אלגוריתמים לחיזוי על סמך הנתונים (ביחס למטרה מוגדרת כלשהי) - בין אם תמורת תשלום למנצח או רק תמורת הזכות להשתתף בתחרות וללמוד.

עם השנים קאגל התפתחה ואיפשרה למשתמשים להעלות מאגרי נתונים או לכתוב סקריפטים ללא מטרה מוגדרת מראש. קאגל נרכשה על ידי גוגל לפני מספר חודשים, וכיום מדובר בקהילה גדולה ושוקקת מאוד, שמתאימה גם למי שרק מתעניין בניתוחים סטטיסטיים כצופה, או מחפש נתונים על ספורט, פוליטיקה, תרבות ועוד (למעשה רק 24% מהמשתמשים כיום הם מדעני נתונים).

להמשך הפוסט

יתרון הביתיות 2: באילו מדינות הקהל גורם לקבוצה האורחת לשקשק באמת?

רוב המחקרים מצאו שיתרון הביתיות הוא לא חזק כמו שכולם חושבים. עם יוצאי דופן

ברשומה הקודמת דיברנו על יתרון הביתיות וסקרנו את ההסברים המקובלים לו: אפקט הקהל, שיפוט ביתי, היכרות עם המגרש ותחושת טריטוריאליות, ומנגד - עייפות המסע של הקבוצה היריבה.

עם זאת ראינו שבניגוד לחוכמה המקובלת, הקהל אינו גורם מאוד דומיננטי על ההתרחשות במגרש. אני לא טוען כמובן שאין לקהל שום חשיבות – למעשה כמה מחקרים הראו בדיוק את ההיפך – אבל החשיבות הזו פחותה ממה שלפחות אני ציפיתי כשניגשתי לנושא. בפוסט הזה נתייחס לשאר הגורמים, ונראה מה עשרות שנות מחקר העלו לגביהם.

אולימפיאקוס
אי־פי
להמשך הפוסט

יתרון הביתיות בספורט: האם הקהל הוא הגורם המשמעותי ביותר?

אף מחקר לא הצליח למצוא הבדלים בין ביצועי קבוצות שונות באותה הליגה כתלות בגודל הקהל

יתרון הביתיות בספורט הוא פקטור שרובנו לוקחים כמובן מאליו. כל-כך מובן מאליו, שברוב ענפי הספורט הוא נלקח בחשבון בחוקי המשחק. למשל, בגמר פלייאוף ה-NBA יתרון הביתיות יינתן כפרס לקבוצה שסיימה את העונה הסדירה עם מאזן טוב יותר (וכך, בתקווה, לשפוך מעט עניין לעונה הארוכה והמייגעת). אולם, לא מעט מהדברים שרובנו לוקחים כמובן מאליו מתבררים, בעדינות, כלא מדוייקים עד הסוף. למרות מה שאבא או סבתא אומרים, לקנות דירה זו לא תמיד ההשקעה הטובה ביותר. ובניגוד למיתוס, אנחנו משתמשים בהרבה יותר מ-10% מהמוח שלנו. למעשה, בשנים האחרונות למדתי שהמקרים בהם החכמה המקובלת שגויה רבים כל כך, שהספקנות שלי כמעט והפכה לניהיליזם מוחלט.

בניגוד למיתוסים רבים, יתרון הביתיות הוא חדשות רעות לספקנים – מדובר בתופעה מובהקת ומתועדת היטב. יחד עם זאת, אף פעם לא הצלחתי להבין עד הסוף למה. כששחקן NBA שמקבל 20 מליון דולר בשנה בעונה העשירית שלו משחק בחוץ בפעם המי יודע כמה, במגרש שמימדיו זהים לחלוטין למגרש האימונים שלו, ניגש לקו העונשין – באמת אכפת לו מהילד ששורק בוז? הוא מועד כי הוא לא מכיר את הבליטה על קו הבסיס? לא מעט חוקרים ניסו לענות על השאלה הזו. ברשומה הזו אנסה לתת כמה תשובות משלי, בהתאם למה שהנתונים יראו.

יתרון ביתיות ב-NBA
להמשך הפוסט