רשתות נוירונים מלאכותיות: איך מאמנים אותן ומה היישומים שלהן בתעשיית ההיי-טק?

רשתות נוירונים מלאכותיות הן מודל חישובי, שאמנם רחוק מאוד מפעולת המוח האמיתי, אך התגלה לאורך השנים כשימושי ביותר ללמידת דפוסים מתוך נתונים לשם פתרון בעיות חיזוי וסיווג שונות ■ בפרק זה, ד"ר דניאל סודרי, חוקר deep learning בטכניון, מספר על המחקרים המרתקים שלו בתחום

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
דגים, כמו זכרונות, יש בים המון. אי אפשר וגם לא רצוי לאכול את כולם
דגיםצילום: David Loh / REUTERS

לאורך ההיסטוריה ניסה האדם להבין כיצד פועל המוח, מהי אינטליגנציה, והאם ניתן לפתח אינטליגנציה בצורה מלאכותית. בשנות ה-60, בהשראת הנוירונים במוח, פותח מודל חישובי בשם רשתות נוירונים מלאכותיות. על אף שהמודל רחוק מאוד מפעולת המוח האמיתי, הוא התגלה לאורך השנים כשימושי ביותר ללמידת דפוסים מתוך נתונים לשם פתרון בעיות חיזוי וסיווג שונות.

בעשור האחרון שיפורים בכח החישוב לצד התקדמות תיאורטית בתחום, איפשרו לבנות רשתות נוירונים עם שכבות רבות (למידה עמוקה - deep learning) וארכיטקטורות מורכבות שהביאו לפריצות דרך בתחומים כגון ראייה ממוחשבת, עיבוד שפה וקול ועוד. בפרק החדש של unsupervised דיברנו על נושאים אלו עם ד"ר דניאל סודרי, חוקר deep learning בטכניון בחיפה.

דניאל החל את דרכו המחקרית במדעי המוח מתוך סקרנות כיצד פועלת האינטליגנציה, ובמטרה להבין איך נוירונים פועלים. הוא חקר את הנוירונים שבמוח על ידי נתונים שנאספו מנוירונים במוחם של דגים שקופים. במהלך הפוסט דוקטורט שעשה באוניברסיטת קולומביה, החל להתעניין ברשתות נוירונים מלאכותיות. מאז פירסם שורת מחקרים בנושאים שונים הקשורים לפרקטיקה ולתיאוריה של deep learning.

כששאלנו את דניאל כיצד הוא בוחר את כיווני המחקר שלו, הוא סיפר שפעמים רבות המחקרים התאורטים שלו נובעים מצורך לפתרון בעיות פרקטיות. לדוגמה, בשיתוף פעולה שלו עם אינטל, עלה הצורך לאמן רשתות נוירונים, כלומר "ללמד" את הרשת את הדפוסים בסט נתונים מסוים, בדיוק נומרי נמוך. מהו בעצם דיוק נומרי? מחשבים יכולים להשתמש במספר סופי של ביטים (ביט הוא יחידת הנתונים הקטנה ביותר שבה משתמש המחשב ערכו יכול להיות 0 או 1) לייצוג מספרים ממשיים. רמת הדיוק שבה נוכל לייצג את המספרים נקבעת על ידי מספר הביטים בהם אנחנו משתמשים בייצוג הממוחשב של מספר. ברירת המחדל ברוב האפליקציות, וכן ברשתות נוירונים עמוקות היא 32 ביט. מסתבר שעם מודיפיקציות מסוימות, רשתות נוירונים יכולות לעבוד בדיוק נומרי נומרי נמוך יותר. כלומר במקום ייצוג מספרים ב- 32 ביט, לרדת ל-16 או 8 ביט ואף נמוך יותר.

אימון רשתות בדיוק נומרי נמוך יעיל יותר מבחינה אנרגטית, מאפשר שימוש בזיכרון ורוחב פס נמוכים יותר, אך באופן פרקטי, כאשר יורדים מ-32 ביט, אימון הרשת בצורה הסטנדרטית לא עובד ויש לעדכן את תהליך האימון על מנת שיעבוד גם בדיוק נמוך.

כדי להבין למה, כדאי לכתוב כמה מילים על איך רשתות נוירונים לומדות. תהליך האימון של רשת נוירונים הוא תהליך טיוב, שמטרתו למצוא את הקשרים בין הנתונים למטרה שיש לחזות. הרשת בנויה ממשקולות שמתעדכנות במהלך תהליך האימון באופן איטרטיבי (זהו תהליך האופטימיזציה) עד שנמצא סט המשקולות המתאים ביותר לנתונים.

צילום: Getty Images ISRAEL

דרך מקובלת לביצוע האופטימיזציה היא stochastic gradient descent שבה בכל איטרציה סט דגימות נבחר באופן רנדומלי מהנתונים ולפיו מעדכנים את המשקולות. עדכון המשקולות בכל איטרציה נעשה בשינויים קטנים הדורשים דיוק גבוה. עבודה בדיוק נמוך דורשת שינויים מסוימים בתהליך האימון על מנת שיוכל להתכנס לפתרון.

לדוגמה, מחקרים מראים שנרמול אותו סט דגימות, הנקרא גם mini-batch, בכל איטרציה גורם לרשת להתכנס בצורה יעילה יותר. תהליך זה נקרא batch-normalization. הנרמול מבוצע על ידי חיסור ממוצע הדגימות וחלוקה בשורש סכום הריבועים של הדגימות, הנקרא גם נורמת L2. הבעיה היא שחישוב גודל זה לא עובד טוב בדיוק נמוך.

הרעיון של דניאל וצוות המחקר שלו היה להשתמש בנרמול בסכום הערכים המוחלטים, נורמת L1, שפחות רגישה לחוסר דיוק נומרי. אבל ברגע שניסו להשתמש בה, המודל לא הצליח להתאמן באופן יעיל. לאחר מחקר בנושא, הבינו שתחת הנחות סטטיסטיות מסוימות (התפלגות נורמלית) היחס בין שתי הנורמות - L1 וL2, הוא קבוע אותו ניתן לחשב באופן אנליטי. שימוש בנרמול החדש והכפלה בקבוע אפשרה לרשת להתאמן באופן יעיל גם בדיוק נומרי נמוך ופתרה את הבעיה. זו דוגמה לפתרון בעיה מתמטית בצורה תאורטית שפותר בעיה הנדסית אמיתית של משאבי מחשוב.

כדי לשמוע עוד על המחקרים המעניינים של ד"ר דניאל סודרי, מוזמנים להאזין לפרק.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker