על גשרים, דגי סלמון והאבולוציה של הלמידה

ההתלהבות משיטות למידה שונות, למשל אלגוריתמים גנטיים, הן אופנות חולפות. לאחר תום ההתלהבות המוגזמת והאכזבה שמגיעה בעקבותיה, בדרך כלל נמצאים יישומים מוצלחים

יעקב רימר
יעקב רימר
גשר בצרפת
גשר בצרפתצילום: PATRICE THEBAULT-EIFFAGE / ONLYF

כמו בתחומים רבים, גם בתחומי הביג-דאטה ולמידת המכונה יש אופנות חולפות. שיטות חדשות מומצאות מדי פעם, חלקן מצליחות לרגש בתחומים מסוימים, רובן נזנחות עקב הצטברות של כישלונות.

דוגמה מובהקת שכבר עסקתי בה בעבר הן רשתות הנוירונים (המלאכותיות) שעושות כעת קאמבק מרשים תחת הבאזוורד "למידה עמוקה". הפעם אעסוק בשיטת למידה מקובלת אחרת, שכיכבה בשנות ה-90 של המאה הקודמת ודעכה מאז. השיטה מבוססת על אלגוריתמים גנטיים שהומצאו בהשראת עקרונות הגנטיקה ותורת האבולוציה בטבע, בדומה לרשתות נוירונים מלאכותיות, שכזכור נבנו בהשראת מבנה מוח האדם.

לפני שאסביר מהם אלגוריתמים גנטיים, נעבור בקצרה על מספר עקרונות של גנטיקה ואבולוציה, מבלי להיכנס לפרטים. לפי חוקי התורשה, כל יצור שנולד כתוצאה מזיווג של שני הורים יורש מכל הורה מחצית מהמטען הגנטי שלו. כך נוצר שוני בתכונות שלו אל מול התכונות של שני הוריו. בנוסף, בתהליך התורשה יכולות להיווצר מוטציות (שינויים בהרכב הגנטי), שיביאו לשונות גדולה עוד יותר.

אחד העקרונות המרכזיים של תורת האבולוציה קובע כי שינויים שמועילים ליצור החדש עשויים לשפר את סיכוייו לשרוד ולהעביר את המטען הגנטי שלו לדורות הבאים. גם צאצאיו שיירשו ממנו את השינוי המועיל יזכו ביתרון הזה. כתוצאה מכך שינויים מועילים יתפשטו באוכלוסייה, בעוד שינויים מזיקים ייעלמו. זהו עיקרון הברירה הטבעית על רגל אחת.

אלגוריתמים גנטיים נוצרו בתחילה לצורך פתרון בעיות אופטימיזציה. למשל, כיצד מתכננים את הגשר העמיד ביותר במחיר הזול ביותר. הרעיון של השיטה הוא להתחיל עם כמה מודלים אקראיים של גשרים. זהו "דור המייסדים" של אוכלוסיית הגשרים. כעת, נחשב את העמידות והעלות של כל אחד מהם ונברור את הטובים ביותר. מודלי גשרים שהם העמידים והזולים ביותר, ישמשו כ"הורים לגשר תינוק" בדור הבא ויעבירו לו את ה"מטען הגנטי" שלהם. נחזור כעת על אותו תהליך ברירה בדור השני, שיהווה את הבסיס לדור השלישי וכן הלאה.

לצורכי יישום השיטה, ניתן לייצג את מבנה הגשר בעזרת מחרוזת ארוכה של אפסים ואחדים, שאותם המחשב מבין. תורשה תתקבל מיצירת "גשר תינוק" על ידי הרכבת מחרוזת חדשה מחיבור חלקים של שתי המחרוזות של "הוריו". כמובן שאפשר גם לייצר מוטציות בקלות על ידי החלפה של מספר אפסים באחדים, או להיפך. כך אנו מחקים את תהליך התורשה בטבע, כי גם המטען הגנטי בדנ"א מיוצג על ידי רצפים ארוכים של 4 אותיות - לא שונה מהותית מרצפים של אפסים ואחדים.

המוטיבציה לשימוש באלגוריתמים הגנטיים נובעת מההנחה שהאבולוציה מייצרת את היצורים המתאימים ביותר לסביבתם, כלומר יצורים אופטימליים. זאת כמובן הנחה שגויה. יש בטבע דוגמאות רבות לאיברים של חיות, או התנהגויות מסוימות, שרחוקים מלהיות אופטימליים. די אם נתבונן למשל במאמץ האדיר שמשקיעים מרבית דגי הסלמון: רובם שוחים אלפי קילומטרים נגד הזרם רק כדי לחזור למקום שבו הם יכולים להתרבות. ואולם, יש כמה מיני סלמון, או קרובת משפחתם הטרוטה, שמסתדרים מצוין גם ללא המסע המפרך הזה. העיסוק באבולוציה הוא רחב ומורכב, ומכיוון שהטור עוסק בביג-דאטה ולא בביולוגיה, אסתפק בדוגמה הזאת.

דג סלמון שנמשה מחוות הדגים בלוך לבן
דג סלמון שנמשה מחוות הדגים בלוך לבןצילום: Matthew Lloyd/Bloomberg

יש כמה בעיות נוספות לאלגוריתמים גנטיים. לא נדון בכולם, נזכיר רק בעיה מרכזית שמשותפת לכל השיטות הדומות לה – היתקעות באופטימום מקומי (ואולי גם הסיבה לתופעות המוזרות בטבע).

אמחיש את הנושא באמצעות דוגמה ציורית. התבוננו בתמונה 1. קל לראות כי לעקום (או גרף) הזה יש נקודה אחת שהיא הנמוכה ביותר, כלומר המינימלית. היינו רוצים למצוא אותה במהלך "שיטוט", כלומר חיפוש אקראי על העקום. אבל, יש כאן "מלכודת" בצורת נקודת מינימום מקומית. כלומר, אם נתחיל את מסענו בסביבת הנקודה זו (למשל בשני הכוכבים הכחולים בתמונה), נקבל במהלך השיטוט תחושה שאין אף נקודה נמוכה ממנה. תמיד "נגלוש" אליה, כי כל ניסיון ללכת לכיוון אחר יראה לנו פחות טוב. רק אם במקרה נצליח "לקפוץ" מספיק רחוק מימין לנקודה האדומה (שהיא נקודת מקסימום מקומי), ייתכן שבהמשך נצליח גם לגלוש אל הנקודה הנכונה.

גרף עם נקודות מינימום

תמונה 1: המטרה שלנו למצוא באמצעות "שיטוט" את הנקודה המינימלית שבצד ימין של התמונה. הבעיה היא ש"שיטוט אקראי" שיחל באחד מהכוכבים הכחולים, כנראה ייתקע במינימום המקומי שבצד שמאל.

את הבעיה הזו בדיוק מנסים לפתור באמצעות הכנסת מוטציות, שבשאיפה "יזרקו" אותנו אל מחוץ ל"בור" של נקודת מינימום מקומית. הבעיה היא שבעיות אמיתיות מורכבות כמובן הרבה יותר מהדוגמה הציורית הזו, ואף אחד לא מבטיח לנו שנצליח למצוא את הנקודה האופטימלית בזמן סביר, או בכלל (בהנחה שיש כזו).

אבל כמו בכל האופנות, לאחר תום ההתלהבות המוגזמת והאכזבה שמגיעה בעקבותיה, הסתבר שאלגוריתמים גנטיים מצליחים בפתרון בעיות מסוימות, למשל בעיות תזמון. כי לפעמים לא בהכרח נדרש הפתרון הטוב ביותר, אלא פתרון שהוא "טוב מספיק". כמו למשל במקרה של דג הסלמון.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.

יעקב רימר

יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

בלוג זה הוא המשך לבלוג קודם של יעקב רימר ב-TheMarker. לטורים בבלוג הקודם לחצו כאן

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker