רשתות נוירונים מלאכותיות: איך מאמנים אותן ומה היישומים שלהן בתעשיית ההיי-טק? - Unsupervised - הבלוג של שיר מאיר לדור וענבר נאור - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

רשתות נוירונים מלאכותיות: איך מאמנים אותן ומה היישומים שלהן בתעשיית ההיי-טק?

רשתות נוירונים מלאכותיות הן מודל חישובי, שאמנם רחוק מאוד מפעולת המוח האמיתי, אך התגלה לאורך השנים כשימושי ביותר ללמידת דפוסים מתוך נתונים לשם פתרון בעיות חיזוי וסיווג שונות ■ בפרק זה, ד"ר דניאל סודרי, חוקר deep learning בטכניון, מספר על המחקרים המרתקים שלו בתחום

דגים, כמו זכרונות, יש בים המון. אי אפשר וגם לא רצוי לאכול את כולם
David Loh / REUTERS

לאורך ההיסטוריה ניסה האדם להבין כיצד פועל המוח, מהי אינטליגנציה, והאם ניתן לפתח אינטליגנציה בצורה מלאכותית. בשנות ה-60, בהשראת הנוירונים במוח, פותח מודל חישובי בשם רשתות נוירונים מלאכותיות. על אף שהמודל רחוק מאוד מפעולת המוח האמיתי, הוא התגלה לאורך השנים כשימושי ביותר ללמידת דפוסים מתוך נתונים לשם פתרון בעיות חיזוי וסיווג שונות.

בעשור האחרון שיפורים בכח החישוב לצד התקדמות תיאורטית בתחום, איפשרו לבנות רשתות נוירונים עם שכבות רבות (למידה עמוקה - deep learning) וארכיטקטורות מורכבות שהביאו לפריצות דרך בתחומים כגון ראייה ממוחשבת, עיבוד שפה וקול ועוד. בפרק החדש של unsupervised דיברנו על נושאים אלו עם ד"ר דניאל סודרי, חוקר deep learning בטכניון בחיפה.

דניאל החל את דרכו המחקרית במדעי המוח מתוך סקרנות כיצד פועלת האינטליגנציה, ובמטרה להבין איך נוירונים פועלים. הוא חקר את הנוירונים שבמוח על ידי נתונים שנאספו מנוירונים במוחם של דגים שקופים. במהלך הפוסט דוקטורט שעשה באוניברסיטת קולומביה, החל להתעניין ברשתות נוירונים מלאכותיות. מאז פירסם שורת מחקרים בנושאים שונים הקשורים לפרקטיקה ולתיאוריה של deep learning.

כששאלנו את דניאל כיצד הוא בוחר את כיווני המחקר שלו, הוא סיפר שפעמים רבות המחקרים התאורטים שלו נובעים מצורך לפתרון בעיות פרקטיות. לדוגמה, בשיתוף פעולה שלו עם אינטל, עלה הצורך לאמן רשתות נוירונים, כלומר "ללמד" את הרשת את הדפוסים בסט נתונים מסוים, בדיוק נומרי נמוך. מהו בעצם דיוק נומרי? מחשבים יכולים להשתמש במספר סופי של ביטים (ביט הוא יחידת הנתונים הקטנה ביותר שבה משתמש המחשב ערכו יכול להיות 0 או 1) לייצוג מספרים ממשיים. רמת הדיוק שבה נוכל לייצג את המספרים נקבעת על ידי מספר הביטים בהם אנחנו משתמשים בייצוג הממוחשב של מספר. ברירת המחדל ברוב האפליקציות, וכן ברשתות נוירונים עמוקות היא 32 ביט. מסתבר שעם מודיפיקציות מסוימות, רשתות נוירונים יכולות לעבוד בדיוק נומרי נומרי נמוך יותר. כלומר במקום ייצוג מספרים ב- 32 ביט, לרדת ל-16 או 8 ביט ואף נמוך יותר.

אימון רשתות בדיוק נומרי נמוך יעיל יותר מבחינה אנרגטית, מאפשר שימוש בזיכרון ורוחב פס נמוכים יותר, אך באופן פרקטי, כאשר יורדים מ-32 ביט, אימון הרשת בצורה הסטנדרטית לא עובד ויש לעדכן את תהליך האימון על מנת שיעבוד גם בדיוק נמוך.

כדי להבין למה, כדאי לכתוב כמה מילים על איך רשתות נוירונים לומדות. תהליך האימון של רשת נוירונים הוא תהליך טיוב, שמטרתו למצוא את הקשרים בין הנתונים למטרה שיש לחזות. הרשת בנויה ממשקולות שמתעדכנות במהלך תהליך האימון באופן איטרטיבי (זהו תהליך האופטימיזציה) עד שנמצא סט המשקולות המתאים ביותר לנתונים.

קוונטים, מחשבים, טכנולוגיה
Getty Images ISRAEL

דרך מקובלת לביצוע האופטימיזציה היא stochastic gradient descent שבה בכל איטרציה סט דגימות נבחר באופן רנדומלי מהנתונים ולפיו מעדכנים את המשקולות. עדכון המשקולות בכל איטרציה נעשה בשינויים קטנים הדורשים דיוק גבוה. עבודה בדיוק נמוך דורשת שינויים מסוימים בתהליך האימון על מנת שיוכל להתכנס לפתרון.

לדוגמה, מחקרים מראים שנרמול אותו סט דגימות, הנקרא גם mini-batch, בכל איטרציה גורם לרשת להתכנס בצורה יעילה יותר. תהליך זה נקרא batch-normalization. הנרמול מבוצע על ידי חיסור ממוצע הדגימות וחלוקה בשורש סכום הריבועים של הדגימות, הנקרא גם נורמת L2. הבעיה היא שחישוב גודל זה לא עובד טוב בדיוק נמוך.

הרעיון של דניאל וצוות המחקר שלו היה להשתמש בנרמול בסכום הערכים המוחלטים, נורמת L1, שפחות רגישה לחוסר דיוק נומרי. אבל ברגע שניסו להשתמש בה, המודל לא הצליח להתאמן באופן יעיל. לאחר מחקר בנושא, הבינו שתחת הנחות סטטיסטיות מסוימות (התפלגות נורמלית) היחס בין שתי הנורמות - L1 וL2, הוא קבוע אותו ניתן לחשב באופן אנליטי. שימוש בנרמול החדש והכפלה בקבוע אפשרה לרשת להתאמן באופן יעיל גם בדיוק נומרי נמוך ופתרה את הבעיה. זו דוגמה לפתרון בעיה מתמטית בצורה תאורטית שפותר בעיה הנדסית אמיתית של משאבי מחשוב.

כדי לשמוע עוד על המחקרים המעניינים של ד"ר דניאל סודרי, מוזמנים להאזין לפרק.

הרשמה לניוזלטר

כל הסקירות בזירת הניתוחים של TheMarker - בתיבת המייל שלכם

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#