מה באמת עושים data scientists בחברות אחרות? - TechNation - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

מה באמת עושים data scientists בחברות אחרות?

מה קורה כשמדעני דאטה נפגשים על בירה והמבורגר כדי לשוחח על רשתות נוירונים, אימוני רשת ומבוא למסחר אלגוריתמי

18תגובות

אני לא רגילה לצאת מהמשרד בחמש. הימים שלי בדרך כלל לא נגמרים לפני שש וחצי כשאני לא יוצאת מוקדם לקחת את בתי מהמטפלת. אבל יום המיטאפ שאני ושותפי לצוות מארגנים במסגרת הסניף המקומי של PyData, הוא יום מיוחד. במשך הבוקר ניסיתי להמשיך לחקור ולבנות מודל התנהגותי שחוזה את ההתנהגות הפיננסית של בעל עסק לפי הפעולות שעשה באתר שלנו. אבל עכשיו אני עושה ריסט ומתמקדת באירוע. בחמש ורבע עליתי במעלית השקופה לקומה ה-32, במגדל Atrium ברמת גן היישר לטאבולה, שאירחה את המיטאפ.

PyData הוא ארגון עולמי שמפגיש בין אנשי Data Science שכותבים ב- Python  ומעודד אותם לשתף מידע וללמוד אחד מהשני את הפרקטיקה וגם את התאוריה. לפני כחצי שנה, בנובמבר 2016 עידו ברגר ואני ייסדנו את המיטאפים המקומיים של PyData Tel Aviv.

האירוע אמנם מתחיל רשמית בשש וההרצאות רק בשש וחצי, אבל כבר בחמש וחצי ראשוני המשתתפים החלו להגיע. ניסיון העבר משני האירועים הקודמים לימד אותם שהאולם יתמלא ביותר מ-150 אנשים. האורחים סיימו את הבירה וההמבורגרים, כשויקטוריה פסוב-מאזו, חוקרת Deep learning מזברה מדיקל, פתחה את ההרצאה המרתקת בנושא Generative Adversarial Networks (GANs) - רשת נוירונים חדשנית שיכולה לייצר תמונות חדשות שלא ראתה מעולם - של חתולים למשל - ומהווה בין השאר את הבסיס לאפליקציה הפופולרית - Prisma.

הרשת בנויה משתי רשתות:  discriminator ו-generator. בתהליך האימון של הרשת, ה-generator  מייצר תמונות (של האובייקט הנבחר - החתול) וה discriminator ״עונה״ לו האם הן נראות אמיתיות או מזויפות. התגובה של ה discriminator היא בעצם פידבק שמסמן ל generator איך להשתפר ולייצר תמונות  שנראות מציאותיות יותר בפעם הבאה. בסוף תהליך האימון הgenerator אמור לייצר תמונות שה discriminator לא יודע להבחין אם הן אמיתיות או מזויפות.

השימוש העיקרי ב GANs  הוא לייצור data סינתטי שמעשיר את ה Data Set שמשמש לאימון  (training) רשתות לזיהוי אובייקטים בתמונות או לסגמנטציה של תמונות. רשתות נוירונים עמוקות (בעלות שכבות רבות) דורשות תמונות רבות לתהליך האימון, מכיוון שהן לומדות פרמטרים רבים. בזברה מדיקל משתמשים ב GANs להעשיר את הדאטא סט לאימון רשתות לזיהוי דימום מוחי בהדמיה רפואית (CT).

זברה מדיקל ויז'ן

הGANs  הומצאו בסך הכל בשנת 2013 ועדיין לא הצליחו למצוא את הסיבה התאורטית לכך שהן מצליחות. באופן כללי עבור כל רשתות הנוירונים העמוקות, הנקראות בפי כל Deep Learning, תהליך האימון הינו בעיית אופטימיזציה שאינה קונבקסית, ולכן אין ביסוס תאורטי לכך שתהיה התכנסות לאופטימום גלובלי. ולמרות זאת, הביצועים שלהן טובים מאוד והן נמצאות בכל מקום.

הדובר השני היה אנדרו קרמר, מייסד אלגונל,  crowd sourcing based hedge fund שנתן מבוא למסחר אלגוריתמי בפייתון. ‎ הוא הציג פלטפורמות שעוזרות למשקיעים צעירים כמו Quantopian שמאפשרת לעבוד עם דאטא של מניות וחוזים עתידיים דרך המערכת וגם לעשות backtesting לאלפא שלך - לאלגוריתם החדשני שהצעת למסחר.

אנדרו הראה חלקים מהפתרון שלו לתחרות data שנקראת numer.ai בסגנון Kaggle (האתר הפופולרי של תחרויות data שנקנה על ידי Google לאחרונה) אבל עם data של מסחר. לדוגמא סיפר כיצד הוא בוחר את הdata שהוא מתאמן עליו בתחרות רק מהדגימות הנתונות בtrain שדומות בהתפלגות שלהן מספיק לtest data ע״י אימון מסווג (classifier) לזיהוי דגימות מהtest data ולקיחת הדגימות מהtrain שדומות מספיק לtest data על פי החלטת המסווג הנ״ל. הוא דיבר על כך שגם שם, כמו בכל משימת data science, האתגר האמיתי הוא הנדסת הפיצ׳רים למודל - feature engineering - וכי זו אמנות אמיתית. כמו כן הוא ציין כי  האלפות נוטות להידרדר עם הזמן לכן האלגוריתמים כל הזמן צריכים להתחדש ולאמץ גישות חדשות להרוויח - נתונים חדשים, פיצ׳רים מהונדסים חדשים, מודלים יותר חכמים.

ויקטור מקרנקוב, דוקטורנט וחוקר NLP במחלקה להנדסת מערכות תוכנה ומידע, אוניברסיטת בן גוריון, דיבר על Multi class classification with PySpark. הוא פתח בהסבר קצר על עקרון הMap Reduce - העיקרון הבסיסי של עבודה עם Big data. עבור דאטא בסדרי גודל של מיליוני ומיליארדי דגימות, פעולה פשוטה כמו ספירות הופעות של מילים יכולה לקחת שעות ארוכות כשמבצעים אותה על מחשב אחד, אבל בחלוקת עבודה חכמה בין מספר שרתים, כשכל אחד מקבל חלק מהמילים מבצע עליהם פעולת ביניים (Map) ואז accumulator המשותף לכולם מקבל את הפלטים השונים מהשרתים ומבצע את פעולת הסיכום הסופית (Reduce) הפעולה יכולה לקחת מספר דקות.

החלק המעניין עבורנו היה איך ליישם את העיקרון הזה באימון של מודלים של machine learning על big data. ואת זה ניתן לעשות עם ספריית mllib למשל, ספריה שכתובה בPyspark, שפה עילית מעל המנוע של ספארק שבעצם מריצה את האלגוריתם שבונה את המודל בצורה מבוזרת ומאפשר אימון מהיר ויעיל של מודלים על מיליארדי שורות של נתונים. ‎יש אלגוריתמים של machine learning שעובדים יותר טוב עם Spark ויש כאלו שפחות. האלגוריתמים שצורכים פחות מעברים על כל הדאטא (כמו random forests, Naive Bayes, Linear regression) עובדים יותר טוב בצורה מבוזרת . כל הרעיון הוא לחלק את כמות הדאטא הגדולה בין כמה סרברים שכל אחד עושה חלק אחר בפעולות. בעוד  Neural networks, SVM, Logistic regression, Adaboost  (שדורשות אופטימיזציה נומרית עם אלגוריתם כגון gradient descent שעובר על כל הדאטא פעמים רבות) עובדים פחות טוב. מישהו מהקהל מעיר שבעבודה עם batches אפשר לשפר את הביצועים של רשתות נוירונים על Spark וויקטור מסכים שזה אפשרי.

טל פרנג׳י, מומחה Spark ו-Big data, מספר על ניסיונו עם Tensorflow על בסיס התנסות עם Dataset שהוא יצר לזיהוי  אמוג׳ים בתמונות. אחד הטיפים החשובים שלמדתי מהרצאתו הוא שאם הדאטא שלך לא מאוד גדול יכול להיות שניתן לאמן רשת נוירונים בלי GPU בזמן סביר אבל כדי שזה יקרה חשוב מאוד לעבוד בbatches  (עדכון המשקולות אחרי מעבר על קבוצות חלקיות של הדאטא ולא לעדכן את המשקולות אחרי מעבר כל הדאטא בלבד).

החלק המרגש בהרצאה שלו היה כשסיפר שלמרות שהמודל שלו לא הגיע לתוצאות מדהימות (כי הdata set שבו השתמש היה קטן יחסית) ‎המודל הצליח לזהות אמוג׳י שלא תוייג כאמוג׳י במקור, ואז טל הרגיש שהוא באמת יוצר אינטליגנציה מסוימת :)

בדרך הביתה, הידהד בראשי משפט שאמר לי מכר מהלימודים במינגלינג של תחילת הארוע: ״תכל׳ס - אין לי מושג מה באמת עושים data scientists בחברות אחרות״. במשפט כל כך אגבי ובלי לשים לב הוא תפס את כל העניין.

מקווה שעכשיו זה קצת מתבהר, בכל מקרה, אנחנו בדרך לשם...

 

הכותבת היא Lead data scientist ב-Bluevine   ו-Co-organizer ב-PyData



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות ראשיות באתר

כתבות שאולי פיספסתם

*#