איך מחשב לומד שפה

שיחה עם יואב גולדברג על עיבוד שפה ותרגום באמצעות רשתות נוירונים עמוקות

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
רשת נוירונים
רשת נוירונים

בפרק הראשון והפותח של הפודקסט ריאיינו את יואב גולדברג, חוקר מוערך, בעל שם עולמי ומרצה בכיר באוניברסיטת בר אילן בתחום עיבוד השפה הטבעית Natural lagnuage processing - NLP.

יואב גולדברג על עיבוד שפה טבעיתקרדיט: שיר מאיר לדור וענבר נאור

עיבוד שפה טבעית הוא תת תחום של מדעי המחשב שמנסה להבין את השפה באמצעות כלי חישוביים. בעידן שבו כמויות אדירות של מידע טקסטואלי זמין ברשת, הבנת שפה הפכה להיות אחד מהאתגרים המסקרנים ובעלי החשיבות הגבוהה ביותר בקרב ענקיות הטכנולוגיה כגון פייסבוק, גוגל ואמאזון והן משקיעות משאבים רבים בתחום. בשנים האחרונות חלה קפיצת מדרגה אדירה בתחום עיבוד השפה בזכות הטכנולוגיה שנקראת deep learning - רשתות נוירונים מלאכותיות עמוקות שמנסות למדל תהליכים מורכבים באמצעות פונקציות מתמטיות מסובכות שנבנו בהשראת מודל הנוירונים במוח. השיטות האלו הביאו לפריצות דרך בתחומים רבים בבינה מלאכותית - ביכולת לזהות תמונות, להבין דיבור וגם, כאמור, ביכולת להבין שפה.

יואב גולדברג

אחת הדוגמאות המעניינות לשיפור הגדול שהביאו רשתות נוירונים לתחום היא השיפור המדהים שחל האחרונות בתרגום של google translate. כשהשירות עלה לאוויר לראשונה הוא הציע במרבית המקרים תרגומים מסורבלים ואפילו מצחיקים לפעמים, אבל המעבר לשימוש ברשתות נוירונים בעלות ״זיכרון״ (RNN - Recurring Neural networks), המאפשרות למדל הקשר של משפט או של טקסט בצורה חכמה יותר, שיפר את התרגומים האוטומטיים בצורה ניכרת.

חלק משיפור התרגום בעברית התאפשר הודות לעבודה שעשה יואב בפוסט דוקטורט במעבדות המחקר של גוגל בניו יורק. משם המשיך יואב למשרת מחקר באוניברסיטת בר אילן והוא משמש אחד מעמודי התווך של השילוב בין רשתות נוירונים עמוקות בתחום של עיבוד שפה טבעית.

בקיץ האחרון יואב כתב פוסט שהעביר ביקורת חריפה על מאמר שפורסם על ידי אחת מקבוצות המחקר הבולטות בתחום. טענתו העיקרית של יואב היתה שכותרת המאמר מנפחת את הישגי המאמר וכי התוצאות אינן נמדדות בצורה הוגנת ביחס לתחום שבו עוסק המאמר. מה שנשמע כמו ביקורת כמעט טכנית בין קולגות הפך לסערה בעולם האקדמי ועורר דיון רחב על תרבות פרסום המחקר העכשווית ועל הצורך "לתקוע דגלים" ולהיות הראשון שמפרסם תוצאות, לפעמים על חשבון איכות המחקר.

בראיון יואב סיפר לנו עוד על התגובות לפוסט, על החיים באקדמיה, על החידושים שרשתות הנוירונים הכניסו לעיבוד שפה ועל הבעיות שעדיין פתוחות בתחום.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker