במקום לצעוק על המחשב, פשוט דברו אתו - עולמי - TheMarker
תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

במקום לצעוק על המחשב, פשוט דברו אתו

פרופ' לארי רבינר, מומחה עולמי בתחום זיהוי דיבור המתארח בכנס של מכללת אפקה, טוען כי העולם שראינו בסרט "2001: אודיסאה בחלל" קרוב למימוש

תגובות

פרופ' לארי רבינר מאוניברסיטת קליפורניה, מומחה עולמי בתחום זיהוי דיבור, מביא את הסרט "2001: אודיסיאה בחלל" כדוגמה מייצגת ליכולת של מחשב בן זמננו לזהות דיבור. בסרטו של סטנלי קובריק משתלט מחשב בשם "האל" על ספינת חלל ומנהל דיאלוגים עם הצוות בחללית. "אתה שואל אותי אם הטכנולוגיה כיום יכולה לתמוך בסצינה שכזאת? כמובן שכן", אומר רבינר. "אל תשכח שהסרט הוא מ-1968. אנחנו נמצאים לקראת תקופה שבה נשאל את הטלפון החכם שלנו שאלות, ונוכל לקבל תשובות. לא נצטרך להשתמש יותר במקלדת וירטואלית".

רבינר, יהודי חם, חוקר ב-AT&T במשך 40 שנה ועסק רוב חייו בחקר זיהוי קול ודיבור. הוא מרצה בשתי אוניברסיטאות ואף כתב חמישה ספרים, מרביתם על תחום הקול. לישראל הוא הגיע כדי להשתתף בכנס שעורכת היום מכללת אפקה להנדסה בנושא טכנולוגיית זיהוי דיבור.

רבינר אומר כי אחד האתגרים של זיהוי דיבור במחשב הוא ניטרול רעש הרקע מהשיחה: "למחשב קשה לנהל זיהוי קול בסביבה רועשת. לבני אדם יש תכונה שעוזרת להם בזיהוי דיבור - היכולת להסתגל. אתה מדבר אנגלית, שאינה שפת האם שלך, ובכל זאת אני מסתגל למבטא שלך בתוך זמן קצר". יתרון נוסף שיש לבני אדם על מחשב, מסביר רבינר, "הוא שאנחנו יודעים לנצל את הדיאלוג לטובת הבנת השיחה. מחשב שומע משפט ולאחר מכן עוד משפט, ומנתח אותם אחד אחרי השני כאילו כל משפט נאמר בפעם הראשונה. אם, למשל, אומר במהלך הראיון שהגעתי לישראל גם כדי לחגוג יום הולדת לאשתי, אנחנו, בני אדם, נבין את ההקשר, ואו שנתייחס או שנתעלם מכך. קשה ללמד מחשב מה חלק מהשיחה ומה לא".

לדברי רבינר, "אנחנו מלמדים את המחשב דקדוק כפי שמלמדים ילדים: מהו נושא, מהו נשוא, איך בנוי משפט. אבל הלמידה מתבצעת באמצעות מודל סטטיסטי. כשאנחנו פונים למחשב הוא שומע אותנו וצריך להבין מה פירוש כל מילה ומה המשמעות של משפט שמחבר כמה מילים. לצורך כך הוא מאחסן הרבה מאוד צירופים אפשריים. כל צירוף מקבל ציון מסוים ולבסוף נבחר הצירוף הכי מתאים, בהתאם לשיחה. נניח שאתה מתקשר למערכת הטלפונית הממוחשבת של חברת תעופה ומנסה להזמין כרטיס טיסה. יוצרי המערכת הכניסו למחשב אוצר מילים רלוונטי: טיסות, תעופה, ערים, הזמנה וכו'. אבל מה קורה כשמישהו אומר למערכת 'אני רוצה להזמין טיסה לבוסטון כי זה יום הולדת של אשתי?' זה האתגר הגדול".

רבינר נזכר שלפני 20 שנה פסגת השאיפות היתה לגרום למחשבים לתמלל קול לטקסט. "הבעיה הזאת נפתרה", הוא אומר. "יש לדוגמה תוכנה בשם Dragon של חברת Nuance שעושה זאת. זה נחמד בתור אפליקציה, אבל כיום, כשהדור הצעיר מקליד כל כך מהר, לא בטוח שזה כל כך חשוב. המטרה היא שהמחשב יידע לשלב קול בצורה נכונה עם שאר האפליקציות. אם אתה מחפש מסעדה במפה במחשב, למשל, תוכל להצביע עם העכבר ולהגיד לו 'תמצא לי את המסעדה באזור הזה'".

"גם החיפוש בגוגל עדיין לא מושלם"

כיום טכנולוגיות זיהוי קולי נפוצות רק בשני תחומים - טלפונים סלולריים ומרכזי שירות לקוחות - אבל הן מתפשטות בהדרגה למוצרים נוספים. רבינר אומר כי טכנולוגיית זיהוי קול תתקדם עם הגידול בכוח המחשוב הזמין, בהתאם לחוק מור. "היכולת לנטרל רעשי רקע, להבין מבטא ולנהל שיחה קשורה לכוח העיבוד הזמין", הוא מסביר. "במעבדות חוקרים כבר מצליחים להגיע להישגים יפים בתחום זיהוי קול".

רבינר מזכיר כי גם החיפוש במנועי חיפוש באינטרנט לפי טקסט עדיין לא מושלם: "לא תמיד גוגל ימצא לך תשובה, גם אם תשאל אותו שאלה ברורה כמו מי זכה בבחירות בישראל ב-1984. אבל במקרים רבים גוגל יתן לך תוצאה די טובה. כך גם טכנולוגיית זיהוי קול - היא יכולה בשלב זה לתת מענה לא מושלם, אבל די טוב. והיא תלך ותשתפר".

רבינר מפתיע במקצת כשהוא מייעץ לסטארט-אפיסטים ויזמים של טכנולוגיות זיהוי דיבור לא לצפות להתעשר מהעיסוק בתחום. "אנשים לא קונים טכנולוגיה בגלל זיהוי קול, אלא מאחר שהיא עוזרת לאנשים לקבל שירות טוב יותר", טוען רבינר. "לכן השוק הפיננסי לטכנולוגיות זיהוי קול קטן. אף אחד לא ישלם לך כי המוצר שלך יכול לזהות קול או טקסט".

מה לגבי פקודות קוליות ברכב?

"בנושא הזה דווקא יש התקדמות. למשל, מיקרוסופט וניואנס משתפות פעולה במסגרת מוצר הקרוי פורד סינק, שמאפשר לנהגים להפעיל את הסלולרי ואת נגן המוסיקה שלהם ברכב באמצעות קול. אבל צריך לזכור: קול לעולם לא יוכל לשלוט במשהו קריטי ברכב. הסיבה היא שמערכות המחשב לא מושלמות, ויש מרווח של טעויות אפשרוית. בנהיגה זה יכול להיות קטלני. אז תמיד תוכל להפעיל מוסיקה, מזגן או מצלמה אחורית ברכב באמצעות קול, אבל לא לנהוג".


"החלום: רובוט שמנהל שיחות עם סטודנטים"

"החלום שלי הוא שרובוט, תוצר המחקר של המרכז לעיבוד שפה באפקה, יתהלך במסדרונות המכללה וינהל שיחה שוטפת עם הסטודנטים והסגל. זה אולי נשמע לקוח מסרט בדיוני, אבל אם מסתכלים על התפתחות טכנולוגיית זיהוי הדיבור בשנים האחרונות - ברור שלא נצטרך לחכות לזה יותר מדי שנים", אומר ד"ר עמי מויאל, ראש המרכז לעיבוד שפה במכללת אפקה להנדסה.

מויאל, שעוסק במחקר ופיתוח בתחום זיהוי הדיבור בישראל כבר כמה שנים, מזהה את תחילת השימוש בטכנולוגיה בפלחי שוק שונים כמו מרכזי שירות לקוחות, מפעילים סלולריים, מחשבים ביתיים, מכוניות, בתים חכמים ואף בשוק הביטחוני. כבר כיום, מספר מויאל, נערכים כמה מחקרים במרכז לעיבוד שפה במכללת אפקה - היחידי שמתמקד בתחום בישראל.

אחד המחקרים האלה הציב כיעד קיום תקשורת בין אדם לרובוט. המטרה היא ניהול שיחה עם רובוט, כאשר הרובוט מסוגל לשאול שאלות במהלך השיחה ולנתח את משמעות הדברים. מחקר נוסף הוא בתחום ניתוח רגשות בדיבור ובטקסט כתוב. מטרת המחקר היא לפתח תוכנה שתזהה את רגשות המדבר או הכותב על המחשב, ותוכל, למשל, לתת את המידע לחברות מסחריות.



עוד בנושא:

 דו"ח מיוחד: המחשב של טום קרוז כבר כאן
 הונדה הציגה: רובוט שנשלט בכוח המחשבה



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות

כתבות ראשיות באתר

כתבות שאולי פיספסתם