רב סרן ספי כהן שיחק קצת עם אלגוריתמים במסד הנתונים הענק של מערכת התקשוב - והקים את מדור הדאטה-סיינס הראשון בצה"ל

בעולם שלפני חמש שנים תחום למידת המכונה ודאטה-סיינס היו הרבה פחות נפוצים ומוכרים, ולמעט האנשים שעסקו בו דאז, מרבית הקהילה הטכנולוגית לא ידעה מה הם בכלל ■ כיום, מדובר בתחומים הלוהטים בהיי-טק, ואלו שמתמחים בהם הם מהעובדים המבוקשים בתעשייה ■ רב סרן כהן הקים את היחידה הראשונה בצה"ל בתחום - מדור מחקרי המידע המבצעי בחיל התקשוב

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
חיילים עם סימולטורים
למצולמים אין קשר לכתבהצילום: בלומברג

לפני כחמש שנים רב סרן ספי כהן, אז מהנדס מערכות מידע באגף התקשוב בצה"ל, נחשף לתחום חדש שלא הכיר עד אז - למידת מכונה. מרותק, הוא החל לקרוא עוד ועוד על אלגוריתמי למידה שונים ובמהרה החל לשאול את עצמו כיצד האלגוריתמים הלומדים הללו יוכלו לעזור לו להפיק תובנות מהמידע הרב שהוא חשוף אליו במסגרת תפקידו.

What do Data Scientists do in the Army? with Sefi Cohen

0:00
-- : --

הוא ניגש למפקדיו וביקש מהם בקשה קטנה בזמנו, אך משמעותית מאוד בדיעבד - תנו לי קצת זמן לשבת ולשחק עם המידע באמצעות השיטות האלו. המפקדים הסכימו ואט אט הוא החל לקבל תחומי אחריות חדשים, אנשים תחת פיקודו וכך קם מדור מחקרי המידע המבצעי בחיל התקשוב.

ספי אמנם זיהה במהרה את את הפוטנציאל החבוי בכמויות הנתונים האדירות שעוברות תחת ידיו, אך בדרך להקמת מדור הדאטה-סיינס הראשון בצה״ל היה צריך להתגבר על משוכות רבות - לשכנע את המפקדים בנחיצות הדבר, ללמוד תחום חדש מאפס, לבחור את האנשים המתאימים לצוות, להכשיר אותם, לבנות את הצוות, לבחור את הפרויקטים המתאימים ובעיקר - להביא תוצאות. בפרק זה הוא מספר לנו את סיפור הקמת המדור, על הדרך שעבר ועל התובנות שאסף במהלך הדרך.

אחד האתגרים הגדולים בדאטה-סיינס הוא שהתוצאה אינה ידועה מראש. בניגוד לפרויקטים של מערכות מידע, לא תמיד ניתן לדעת האם הנתונים הזמינים מספיקים על מנת לספק את הסחורה וכמה זמן ייקח לפתח את האלגוריתם המתאים, אם בכלל. בנוסף, בעולם שלפני חמש שנים התחום היה הרבה פחות נפוץ ומוכר, ולמעט האנשים שעסקו בו דאז, מרבית הקהילה הטכנולוגית לא ידעה מהו דאטה-סיינס, מהם אלגוריתמים שלומדים מנתונים בצורה אוטומטית ושהדבר בכלל אפשרי.

חמש שנים עברו והעולם השתנה. תחום הדאטה-סיינס ולמידת המכונה זוכה לפופולריות הולכת וגוברת והעובדים בו הם מהמבוקשים בתעשייה. אחד התחומים החמים במקצוע כיום הוא תחום עיבוד השפה הטבעית. עם זאת, מרבית האלגוריתמים הקיימים מתמקדים בשפה האנגלית. גם באקדמיה מעטות העבודות שעוסקות בעיבוד שפה טבעית בעברית, כפי שסיפר לנו יואב גולדברג בפרק 1 - LINK. העובדה הזו מציבה אתגרים למדור שספי הקים משום שבמקרים רבים, על מנת לפתח אלגוריתמים חכמים עבור מערכות בטחוניות לצה״ל נדרשת יכולת עיבוד שפה בעברית.

אחד הפרויקטים המעניינים שהמדור עבד עליו הוא אלגוריתם חיפוש טקסטואלי למטרות מבצעיות. כדי להתמודד עם אתגר העברית האלגוריתם השתמש במקורות מידע כמו ויקיפדיה על מנת למדל את השפה לצורכי חיפוש מטקסט חופשי.

כדי לבדוק את איכות המודל שפיתחו ביחס לבעיות דומות בעולם, הצוות של ספי השתמש גם בקאגל, אתר תחרויות הדאטה הגדול בעולם שנרכש לאחרונה על ידי גוגל. הם השתתפו בתחרות עבורה פיתחו מודל עם עקרונות דומים והגיעו לעשירייה הראשונה.

קאגל, שבתחרויותיו משתתפים עשרות ומאות אלפי משתתפים מכל העולם, הוא אחד האתרים המעניינים בתחום ומאפשר למשתתפים בתחרויות מכל העולם להשתתף בתחרויות נושאות פרסים, לחלוק את רעיונותיהם בפורומים, לשתף פעולה, להרחיב את הידע וללמוד אחד מהשני על אלגוריתמים שונים של למידת מכונה. בפרק זה ספי מספר לנו כיצד הוא נעזר באתר כדי להתמקצע בתחום וכן כדי לבחון את ביצועי האלגוריתמים שהם מפתחים במדור.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker