בקומנדו של גוגל משחקים פקמן כדי לבנות את העתיד - TechNation - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן
ראיון

בקומנדו של גוגל משחקים פקמן כדי לבנות את העתיד

מערכת הלמידה העמוקה הממוחשבת שפיתחו אנשי DeepMind הדהימה את המומחים כשהביסה את אלוף העולם במשחק גו - הישג שנחשב קשה הרבה יותר מניצחון דיפ בלו בשחמט ■ ת'ורה גראפל, ממובילי פיתוח המערכת, מספר כיצד גורמים למחשב ללמוד כמו בן אדם, ולמה משחקים הם הדרך הטובה ביותר לפתח בינה מלאכותית

5תגובות
משחק פק-מן

"משחקים הם מיקרו־קוסמוס של העולם האמיתי. אתם יכולים לקרוא לזה משחקים — אנחנו קוראים להם סביבה וירטואלית. מעצבים המציאו משחקים כדי לאתגר בני אדם, אבל כשאנחנו מאמנים מערכות עם בינה מלאכותית לשחק את המשחקים הללו — אנחנו בעצם מלמדים אותן משהו על העולם שבו אנחנו חיים. המשחקים הללו מהווים מראה לאספקטים של החיים שלנו", כך אומר ת'ורה גראפל, מוביל תחום המחקר ב-DeepMind, חברת הבינה המלאכותית שהיתה שותפה למהלך היסטורי שעשוי להשפיע על הדרך שבה מחשבים ואנשים מתפקדים אלה לצד אלה.

"הגישה שלנו היא ללמד סוכן להידמות כמה שיותר למוח האנושי, שמצליח לפעמים ללמוד דפוסים גם ממופע אחד, ולא על פי אלפי דוגמאות כמו שנדרש כדי לאמן מחשב", אומר גראפל בראיון ל–TheMarker.

"בבסיס של כל משחק קיים שילוב של אינטואיציה אנושית עם הליכה זהירה ושקולה שמבוססת על ניסיון, בדומה לדרך שבה אנחנו פועלים כבני אדם ביומיום — וזו המשימה הקשה שאנחנו מבקשים להשיג", הוא מסביר. "היכולות האלה יכולות להתבטא גם בתחומים אחרים, למשל כלים רפואיים — שבהם ייבחנו הטיפולים הראויים ביותר, ולא מתוך בדיקה של כל הטיפולים הזמינים, אלא רק של הרלוונטיים ביותר".

כל מה שצריך לדעת על קריירה בהייטק
כנסו למתחם

האירוע ההיסטורי המכונן שהובילה דיפ מיינד ב–10 במארס השנה התחולל בשלב השני בטורניר של משחק הלוח הסיני העתיק גו, בין אלוף העולם מקוריאה, לי סדול, לבין מערכת המחשוב אלפא גו של גוגל. מהלך מספר 37, יחסית בתחילת המשחק, היה צעד מוזר לכאורה. אלפא גו שיצרו אנשי דיפ מיינד, ביקשה לבצע צעד שנראה כמעט כמו תקלה במערכת — אבל התברר במהרה כנקודת מפנה.

"אני לא יכול לשכוח את הפרצוף המופתע והמודאג של לי ברגע שהתבצע המהלך", מספר גראפל, מוביל תחום המחקר בדיפ מיינד ושחקן גו בעצמו. "עם התקדמות המשחק הוא הביא לאלפא גו את הניצחון. אנשים כינו את המהלך הזה יצירתיות ממוחשבת, כי המהלך הגיע, במובן מסוים, משום מקום", מספר גראפל.

לי סדול, אלוף העולם בגו מקוריאה, בטורניר שבו הובס על ידי מחשב
אי־פי

לבסוף, בתום חמישה משחקים, ניצחה המכונה את האדם בתוצאה 4:1. "לי הרגיש במידה מסוימת שהוא מאכזב את האנושות כולה כמייצג שלה, אבל הוא גם טוען שיצא מעודד מכך. הוא טען שבמשך תקופה ארוכה הרגיש משועמם, והיכולות של אלפא גו החזירו לו את חדוות המשחק. יתרה מכך, זה הפך את המשחק לפופולרי עוד יותר — מומחים אחרים למשחק טענו שהם למדו הרבה בעקבות הטורניר", אומר גראפל.

למערכת יש אינטואיציה

דיפ מיינד היא חברה בריטית לטכנולוגיות בינה מלאכותית, שהוקמה ב–2010 על ידי דמיס הסאביס ושיין לג, חוקרי למידת מכונה, ויזם בריטי נוסף, מוסטפה סולימאן. ב–2014 נרכשה דיפ מיינד על ידי גוגל במחיר המוערך בכ–400 מיליון ליש"ט. במובן מסוים מתפקדת דיפ מיינד כמגרש המשחקים של גוגל — שבו עשרות מומחים למדעי המחשב, מתמטיקאים וחוקרי מוח מנסים, באמצעות ניתוח של משחקי מחשב, לפענח מושג אחד מופשט — אינטליגנציה.

לב העשייה של דיפ מיינד הוא בניית מערכת אוטומטית ועמוקה המבוססת על רשתות נוירוניות מלאכותיות עם מיליוני סינפסות. הרעיון של הקבוצה הוא לבנות מודל אחד שיכול לחקות תהליכי חשיבה של המוח האנושי. הארכיטקטורה החישובית הזאת מכונה "למידה עמוקה", והיא מבוססת על שכבות של עיבוד מידע.

המפגש עם גראפל התקיים במהלך כנס שקיימה גוגל באתר שלה בציריך שבשווייץ, הנחשב לגדול ביותר מחוץ לארה”ב, עם כ–1,800 עובדים. במשך הכנס, שאירח את בכירי תחום הבינה המלאכותית בחברה, הכריזה גוגל על פתיחתו של מרכז מחקר אירופי חדש בתחום זה.

גראפל הוא מומחה ומרצה ללמידת מכונה (Machine Learning), תחום המכיל בתוכו את הלמידה העמוקה. הוא מסביר כי בדיפ מיינד משתמשים בשתי רשתות נוירוניות מקבילות כדי להתמודד עם המורכבות שיוצרות סביבות כמו גו. הראשונה היא רשת הערכים, שחוקרת את המיקום על הלוח ויודעת לתת מספר בין מינוס 1 ל–1 שמציין מי מהצדדים במצב טוב יותר. אם המצב מאוזן, המספר הוא 0. השלב הזה, הוא מסביר, מתבצע באמצעות הסתכלות של המערכת על הלוח והפעלת שכבות עיבוד, שמתורגם לאותו מספר.

הרשת השנייה היא רשת המדיניות. "הרשת הזאת עושה בדיוק מה שעושה שחקן מנוסה כשהוא מדגיש לעצמו מהלכים מבטיחים. זה משהו שמתקרב לאינטואיציה, במובן מסוים", אומר גראפל. את ה"אינטואיציה" הזאת המערכת לומדת לבד, לאחר בנייתה על ידי מפתחים שהגדירו לה משימה וחוקים, ומתוך אימון, בין אם מול אנשים ובין אם במיליוני משחקים מול עצמה.

מוביל המחקר בדיפ מיינד, ת’ורה גראפל
אלירן רובין

מלבד המשחק גו, שהחזיר את ההתלהבות אל תחום הבינה המלאכותית, ושם את דיפ מיינד בקדמת הבמה, החוקרים בחברה — המשמשת מעין יחידת עילית של גוגל בתחומה — מנתחים כ–50 משחקים נוספים, ובהם פקמן, פונג, מרוץ מכוניות ומשחקי ארקייד מוכרים ממחשב האטארי הישן.

המשחקים שאותם חוקרת דיפ מיינד מקדמים את גוגל לעבר הבנה עמוקה יותר של תחום הבינה המלאכותית. "היישומים הבולטים הם רובוטים שונים, או העוזרים האישיים כמו שהחברות הגדולות כבר מייצרות. אלה אפליקציות שכיום אנחנו חושבים עליהן. הרכיבים הללו — תוצאות מבוססות למידה — הן העתיד של מערכות אינטליגנטיות", אומר גראפל.

לעולם האינטליגנציה המלאכותית יש היסטוריה ארוכה עם משחקים. אחד האירועים המוכרים ביותר בה התרחש ב–1996, כשאלוף העולם בשחמט, גרי קספרוב, הפסיד למחשב דיפ־בלו של חברת יבמ. מאז עלתה השאלה אם אפשר יהיה להביס אלוף אנושי גם בגו, הנחשב משחק הלוח המורכב ביותר בעולם. כמות המהלכים הכוללת בגו היא 10 בחזקת 170. אנשי דיפ מיינד נוהגים לומר שזהו מספר גדול יותר ממספר האטומים ביקום.

גראפל אומר כי אלפא גו נבנתה בצורה שונה מדיפ בלו: "לא הוכנסו פה מהלכים. לא אמרנו למערכת מה לעשות — נתנו לה ללמוד לבד, והתוצאות של מהלך כזה מעניינות. למעשה אלפא גו אטי יותר מדיפ בלו — הוא מחשב רק 100 אלף הסתברויות בשנייה, בעוד המחשב של יבמ חישב 200 מיליון. מה שמעניין כאן הוא שאלפא גו לא צריכה לבדוק כל כך הרבה. בדומה לשחקן אנושי, שאינו בודק את כל המהלכים בכל רגע, גם היא בוחנת רק את המהלכים המבטיחים ביותר, וזה החלק המשמעותי במערכת.

"פקמן ומשחקים אחרים שנראים פשוטים הם סביבה עשירה ומעניינת", טוען גראפל. "אנחנו חושבים שאם נלמד סוכנים (שחקנים אוטומטיים) משחקים כאלה, נבין איזו אינטליגנציה דרושה כדי לעשות דברים אחרים. עד עכשיו עסקנו במשחקים דו־ממדיים, ובשלב הבא אנחנו רוצים ללמוד סביבות של תלת ממד, וזה הרבה יותר מסובך. בתלת ממד יש עומק לדברים — כך שאם אני מפנה את המבט שלי אני עדיין צריך לזכור שמאחורַי יש משהו. בלמידה של סביבות מתוחכמות יותר אנחנו לומדים מכניזמים שונים, והמטרה היא להביא לכך שסוכנים כאלה יכולים לפתור בעיות בעולם האמיתי. דוגמה אחת לכך היא מכונית אוטונומית".

דוגמא למהלך מספר 37 על לוח גו

המשחק גו הומצא בסין לפני ככל הנראה 3,000 ומאז הוא נפוץ בעיקר במדינות המזרח הרחוק, אולם נראה כי ישנה התעוררות בתקופה האחרונה גם במערב. ההערכות הן כי בעולם כיום ישנם כ-40 מיליון שחקנים.

גו משוחק בין שני שחקנים, על לוח בן  19 על 19 משבצות כשעל ההצטלבויות מניח כל שחקן בתורו אבן. בסך הכל ישנן 361 אבנים - 181 שחורות ו-180 לבנות.

כל שחקן מניח בתורו אבן במטרה לכבוש טריטוריות על הלוח כאשר כל אבן שהונחה לא ניתנת להזזה. מרבית המשחק היא למעשה בבניית גדרות.


בנוסף ישנו חוק שאוסר לשחק מהלך שיחזיר את הלוח למצב שבו היה בתור הקודם, גם אם יביא ללכידה של אבן. כמו כן אסור לבצע מהלך של התאבדות. המנצח הוא מי שבתום המשחק חייליו מחזיקים בכמה שיותר צמתים על הלוח. 


מבחינת חוקי המשחק, גו הוא לכאורה פשוט יותר ממשחק השח-מט, אולם מספר האפשרויות הניתנות לביצוע בכל רגע נתון מביאים למספר עצום של הסתברויות ולכן מחשבים מתקשים בפיצוחו.

בהרצאה של מנכ"ל דיפ מיינד, הסאביס, הניתנת לצפייה ביוטיוב, הוא מציג כיצד המערכת יודעת לזהות דרכים חכמות לביצוע משחקים שונים. למשל במשחק Breakout, שבו נדרש לשבור לבנים באמצעות כדור החוזר מטה אל מגש שזז ימינה ושמאלה, המערכת מגלה לבד שהשיטה היעילה לסיום המשחק היא יצירת תעלה, שאליה נכנס הכדור ומפרק את מרבית הקיר. מהלך כזה אינו כלול במערך הנתונים שהוזנו למערכת — היא הבינה זאת לבד. למידה כזאת על ידי מחשב היתה בעבר חלום רחוק.

האדם והמכונה משתפים פעולה

אחת הביקורות על מערכות אלה קשורה בעובדה שגם כעת אלפא גו משחקת במהירות מול עצמה ללא הפסקה, כשבכל משחק, כמו שחקן אנושי, היא משתפרת. גראפל טוען, אם כן, שחשוב לזכור שלמרות הכל, המערכת הפסידה משחק אחד בסדרת המשחקים מול אלוף העולם.

הצעד שביצעה המערכת והביא את הניצחון ריגש את אנשי דיפ מיינד, אבל הם התרגשו לא פחות ממהלך של האלוף לי, שגרם להם להבין שעבודתם לא הושלמה עדיין. "לי הוא איש חכם מאוד ומתחרה מדהים", אומר גראפל. "במשחק הרביעי הוא ביצע מהלך שבילבל את המערכת. הוא הצליח ללמוד את אלפא גו כשחקן. היינו בעננים מזה. אותו רגע לימד אותנו שיש עדיין מרחק משלמות של המערכת. הגורם האנושי פה חשוב. זה לא האדם נגד המכונה — זה שיתוף פעולה".

דבר נוסף שהפתיע את גראפל ואנשי דיפ מיינד היה כאשר גילו שאלפא גו משנה את קצב המשחק שלה במשך המשחקים. "לא הכרנו את זה", הוא אומר. "גילינו שלמעשה לא אכפת לה מההפרש — העיקר שתנצח. הופתענו מכך שהיא לא תמיד על ההילוך הגבוה ביותר".

זה לא מדאיג, שלמערכת יש רצונות וכוונות שלא תוכננו מראש?

"זו אכן שאלה מחקרית מעניינת. אנחנו רואים הפתעות — אבל לא מבחינת המטרה הסופית. יש הפתעות ב'איך', אבל לא ב'מה'. זה קצת כמו מדעי המוח, ויש לנו מומחים מהתחום בצוות והם עוזרים לנו להבין איך המוח האנושי עובד. אנחנו לומדים מזה מה ההשראות שמהן פועל המוח האנושי — והם עוזרים לנו לנתח את המערכות המלאכותיות, מפני שהם מתורגלים בהבנה של מערכות מורכבות כמו המוח האנושי. גם זו חידה".

לדברי גראפל, "האירוע סביב אלפא גו היה מוצלח וכיפי, והביא עניין רב לתחום הבינה המלאכותית, כך שזה בהחלט דבר שנרצה לעשות שוב בעתיד — אבל אני לא יודע מה זה יהיה בדיוק".

מה הדבר הגדול הבא?

"האירוע בקוריאה היה כה מוצלח, שקשה לנו כרגע לראות איך מתחרים בו. באותו רגע בעולם היו בטוחים שיש עוד עשור עד שמחשב יוכל לנצח שחקן ברמתו של לי סדול. אנחנו חושבים על דברים כרגע, אין משהו קונקרטי, אבל נראה שאלפא גו לא היה האחרון.

אפליקציות גוגל שמשתמשות בבינה מלאכותית
TensorFlow
מערכת קוד פתוח המשמשת את המוצרים של גוגל.
נפתחה לקהל הרחב
Google up
זיהוי הדיבור של גוגל משתפר כל הזמן. באחרונה
השיקה את Home — עוזר אישי לבית
Translate
גם באפליקציית התרגום המוכרת משתמשת החברה
במודלים של למידת מכונה
Photos
מערכת התמונות אומנה על מיליוני קבצים ויודעת
לזהות מושגים כמו חיבוק
Gmail
גוגל מתכננת להאיץ את השימוש במענה חכם הבנוי
גם הוא על אימון של המערכת

"קשה לומר מה נראה בעוד שנתיים או חמש. אנחנו ניקח סביבות מורכבות יותר, ונלמד מהן אילו בעיות אנחנו צריכים לפתור. רוב העבודה שלנו היא מחקר משמעותי. במאמרים מדעיים ישנן סוגיות שאנחנו עובדים עליהן. לכן זה לא בהכרח קשור להשקה של מוצרים ספציפיים".

למעשה, את היכולות שצוברת גוגל בתחום הבינה המלאכותית, היא כבר מיישמת במוצרים כמו גוגל תמונות, מוצר התרגום שלה והעוזר האישי בסמארטפון או במכשיר Home. גם חברות כמו פייסבוק, מיקרוסופט ואפל ממשיכות להשקיע בפיתוח — כדי לא להישאר מאחור.

בנובמבר האחרון, אנשי גוגל בריין (מחלקה שממוקדת במחקר למידה עמוקה בגוגל) פיתחו את TensorFlow — התוכנה שמשתמשת בה החברה לשירותי התרגום וזיהוי התמונות — בקוד פתוח, ובחינם. לפני כחודש, בכנס המפתחים I/O, חשפה גוגל כמה מוצרים חדשים, ובהם מעבד חדש, המכונה TPU, שיתמוך בשירותים החדשים שגוגל מספקת. מעבדים מסוג זה שירתו את דיפ מיינד כדי לנצח את סדול.

ההכרזה על סדרת המעבדים החדשה הפתיעה את עולם החומרה והעלתה את השאלה על עתיד השימוש במעבדים הגרפיים (GPU) ללמידה עמוקה. מעבדים אלו מסוגלים לעבד כמויות גדולות של נתונים במקביל במספר ערוצים, כביכול בדומה למוח, ויכולים להגיע לתוצאות בצורה מהירה הרבה יותר ממעבדים רגילים (CPU).

גרג קוראדו
Google

גראפל טוען שבתהליך הלמידה של המערכת, עדיין ישנו יתרון למעבדים הגרפיים, אך כאשר המערכות האלה רצות, המעבד החדש TPU הוא הטוב ביותר. החברה מסרבת לחשוף כיצד בנוי מעבד זה, אך מסבירה שהוא נועד לספק כוח מחשוב טוב יותר לצרכי בינה מלאכותית. בגוגל לא מתכוונים לשווק את המעבדים בצורה מסחרית.

איך יתמודדו עם 
ניצול לרעה?

במפגש שהתקיים בציריך נכח גם גרג קורדו, אחת הדמויות המוכרות בעולם למידת המכונה, ומי שהקים את גוגל בריין ב–2011 יחד עם אנדרו נייג. באותה חטיבה נמצא כיום גם ג’פרי הינטון הנחשב למחייה דוקטרינת הלמידה העמוקה. קורדו נשאל יותר מפעם אם יש סכנה במערכות כה חכמות ופתוחות לקהל, כמו שמייצרים בגוגל, ואם יגיע מתישהו היום שבו המערכת כבר תדע ללמד את עצמה איך לבנות אלגוריתמים חכמים יותר.

גוגל, כשאר התעשייה, עדיין לא יודעת איך להתמודד עם ניצול לרעה של היכולות האלה — שייתכן שיקרה בעתיד, אם כי חוקרים טוענים כי לא סביר שיקרה בקרוב. קורדו חזר והשיב כמה פעמים בצורה דיפלומטית כי כיום האדם מגדיר למערכת מהם הגבולות ומהו המידע שעל פיו היא אמורה לפעול. "למידה עמוקה אינה קסם. זהו כלי — וחשוב לזכור את זה", אמר. "הדבר היחיד שהמערכת לומדת מוגבל לפרמטרים שהוכנסו על ידי האדם עבורה. זו שאלה מחקרית — האם האלגוריתמים יערכו את עצמם. זו שאלה לא פתורה במדע. זה משהו מאוד מעניין שטרם נלמד ונחקר לעומק. עם כל טכנולוגיה חדשה, חשוב לנהל שיח מה נכון ומה טוב. צריך לשים גבולות. אני לא חושב שיש סיכון כרגע. יש הייפ. אבל חשוב לדון בזה. זה תהליך".



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות ראשיות באתר

כתבות שאולי פיספסתם

*#