המקל והגזר של למידת מכונה באמצעות חיזוקים

בשנים האחרונות יש הרבה באזז סביב "למידה באמצעות חיזוקים" ■ עד כמה היא אכן רלוונטית לבעיות הלמידה שלכם?

ד"ר יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
ד"ר יעקב רימר

אומרים שכל יום לומדים משהו חדש. האם זה נכון גם ללמידת מכונה? תלוי בגישה. הקדשתי מספר פוסטים בבלוג להסבר של "למידה מונחית" (Supervised Learning) מתוך דוגמות שהתוצאה עבורן ידועה. בגישה הזו, לא נלמד שום דבר חדש כל עוד לא נאסוף דוגמות חדשות. אבל יש גם גישה אחרת שנקראת "למידה באמצעות חיזוקים" (Reinforcement Learning). בגישה הזו, המכונה לומדת באופן רציף באמצעות ניסוי וטעיה על פי משוב (פידבק) שמתקבל מה"עולם".

הדוגמה הקלאסית היא רובוט (למשל שואב רובוטי) שלומד כיצד לנוע בתוך דירה. לרובוט יש חיישנים שמדווחים לו מתי הוא מתקרב או מתנגש במכשול. אין צורך לתת לו הוראות מראש והוא גם יודע להסתגל לסביבה משתנה כמו הזזה של רהיטים בחדר. מהדוגמה הזו אפשר להבין שכדי שנוכל להשתמש בלמידה מתוך חיזוקים צריכים להתקיים שני תנאים חשובים: ראשית, צריכה להיות לנו יכולת לקבל משוב האם החלטה מסוימת היא טובה יותר מהחלטה אחרת. בדוגמה של הרובוט, להעדיף להתקדם למקום פנוי ולא למקום חסום. שנית, נדרשת יכולת לתרגם את המשוב שקיבלנו לפעולה שנרצה לבצע כדי לקדם אותנו למטרה שלנו. למשל, במידה והרובוט נתקל במכשול, הוא ינסה לפנות לכיוון פנוי או לחזור על עקביו.

יש בשנים האחרונות באזז גדול סביב "למידה באמצעות חיזוקים". ביחוד לאחר ההצלחה המסחררת של הגישה הזו לנצח את אלופי משחק הגו, אותה כבר הזכרתי בפוסט שעסק בלמידה עמוקה. לכאורה, יש בגישה הזו יתרונות ברורים. כבר הזכרתי בפוסט קודם שאיסוף דוגמות היא משימה קשה למדי ולכן ברור מדוע הגישה הזו קוסמת לאנשים. במקום שנצטרך להכין מראש מאגר גדול של דוגמות מתויגות עבור מודל של "למידה מונחית", המכונה תלמד בעצמה באופן רציף ותעזוב אותנו בשקט. יש לה אכן הצלחות יפות ברובוטיקה או תחומים שונים של אינטליגנציה מלאכותית (Artificial Intelligence). אפשר להבין למה. הגישה הזו מנסה לחקות את האופן שבו אנשים (או חיות) לומדים ביום-יום. פעמים רבות, אין לאנשים, ביחוד לתינוקות או ילדים, ניסיון רב או מאגר דוגמות שהם כבר אגרו. מצד שני, יש להם סנסורים רבים (=חושים), והורים, מורים או מדריכים שנותנים להם פידבק ומכוונים אותם להתנהגות נכונה יותר.

אבל באמצעות ההשוואה הזו ניתן להבין גם חלק ממגבלות הגישה הזו. ראשית, ילדים לא לומדים רק בשיטה של ניסוי וטעיה. הם לומדים מחיקוי ההתנהגות של אחרים (=דוגמות), הם משננים ידע בבתי ספר (=כללים או חוקים) והם גם מוגנים מפני טעויות מסוימות. למשל, אני לא אמליץ להורה לאפשר לבתו ללמוד איך לחצות כביש באמצעות ניסוי וטעיה. לפחות לפי כמות החתולים הדרוסים בכבישים, זה לא עובד כל כך טוב. האופן בו ילדים לומדים הוא נושא רחב ומרתק, אבל נעצור כאן.

ללמוד כיצד להתנהל במעבר חצייה דרך ניסוי וטעייה זו לא שיטה יעילה. לכן מראים לילדים דוגמות וסימולציות לפני שהם מבצעים את הפעולה בשטחצילום: תומר אפלבאום

שנית, ציינתי שכדי להשתמש בגישה של למידה מחיזוקים אנחנו צריכים יכולת לתמחר את איכות ההחלטה שקיבלנו וגם לדעת לתרגם את המשוב שהתקבל לחישוב הצעד הבא. ביישומים רבים של למידה המושג של "הצעד הבא" אינו קיים. אמנם בנק שצריך להחליט האם לאשר משכנתא ללווה מסוים עשוי לטרטר אותו להשיג אישורים שונים ומשונים, אבל עדיין מדובר בסוף בהחלטה בדידה – לתת לו את הכסף או לא. יתרה מזו, במרבית היישומים של למידה אין אפשרות לקבל משוב אוטומטי לגבי איכות החלטה. בדרך כלל זהו בדיוק הידע שחסר לנו שאותו אנחנו רוצים ללמוד. לכן נדרש לקבל משוב אנושי. והנה חזרנו לצורך באיסוף ותיוג דוגמות, למרות שאין צורך להכין אותן מראש. יש שטוענים שכדי להשיג תוצאות טובות בשיטות של "למידה מחיזוקים" בדרך כלל נצטרך הרבה יותר דוגמות מתויגות מאשר בשיטות "למידה מונחה". אז מה היתרון?

מי שעוקב אחרי הבלוג הזה כבר יכול היה להתרשם שהגישה שלי לביג-דאטה היא "סוף מעשה במחשבה תחילה". מומלץ לנתח את בעיית הלמידה שעומדת לפניכם ולהעריך איזו גישה תתאים לכם יותר. אם יש לכם דוגמות מוכנות והבעיה אותה אתם מנסים ללמוד היא בדידה – פניכם ל"למידה מונחית". אם אין לכם דוגמות ואתם עוסקים בתחומים של רובוטיקה, יצור תעשייתי או כל תחום תהליכי שמעורבים בו סנסורים – בהחלט שווה לבחון ברצינות שיטות "למידה באמצעות חיזוקים". בשאר המקרים נדרש לנתח ככל האפשר את יחס העלות-תועלת של כל גישה, ואז להתנסות בשיטות שונות.

צילום: Dreamstime
יעקב רימר

ד"ר יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker