עברית שפה קשה: כך ילמדו את אלכסה וסירי להבין אותנו טוב יותר

למה הכוונה במילה "הקפה" – האם זהו משקה חם או סיבוב סביב מגרש? לסייעות קוליות קשה להבין זאת ■ רשות התקשוב הכריזה על פיילוט חדש, במטרה לאמן את המחשב להבין טוב יותר טקסטים, הקשרים וכוונה, כדי לסייע ליצור צ'אטבוט עבור שירותי הממשלה

שגיא כהן
שגיא כהן
סירי
שיחה עם סיריצילום: בלומברג

האם הממשלה תצליח לגרום למכונות ולמחשבים להבין ולדבר עברית טוב יותר? במסגרת פיילוט חדש של רשות התקשוב הממשלתית, יוקם מסד נתונים שמיועד לעזור למחשבים להבין את השפה העברית. זה עשוי לסייע בעתיד ליצור יישומי בינה מלאכותית המבוססים על עיבוד שפה טבעית (NLP) בעברית – הן במגזר הממשלתי והן במגזר הפרטי.

עברית היא שפה קשה, גם כשמדובר במכונות. כדי ללמד מכונות להבין עברית היטב יש צורך לאמן אותן באופן נרחב על השפה העברית. בעוד זיהוי הדיבור עצמו (המרת הדיבור לטקסט) בעברית עובד היטב, הבעיה המורכבת יותר היא לפענח את משמעויות הטקסטים. המכונות מתקשות להבין את הכוונה של משפטים ולשים מילים בהקשר הנכון – וזה נכון במיוחד בעברית. למשל, מה הכוונה במילה "הקפה" – האם מדובר במשקה החם או בהקפה סביב מגרש? באופן דומה, את המילה 'חיפה' ניתן לקרוא כשמה של עיר בישראל, ובהקשר אחר כאדם ש'חיפה' על חברו - וכן הלאה.

מאחר שמספר דוברי העברית בעולם קטן מאוד, עד היום חברות לא טרחו להשקיע בפתרון לבעיה לצורך יצירת יישומי שיחה טבעית בעברית. זה פשוט לא משתלם ולא נמצא בסדר העדיפויות. זו הסיבה שסייעות קוליות חכמות כמו אלכסה של אמזון, גוגל אסיסטנט וקורטנה של מיקרוסופט, המשולבות בסמארטפונים, רמקולים חכמים ומחשבים - עד היום לא תומכות בשפה העברית. סירי של אפל תומכת בעברית – אך בצורה מוגבלת מאוד. גם מעבר לכך, קשה למצוא צ'אט-בוטים קוליים או טקסטואליים שתומכים בעברית.

"לאחר שיצאנו לחפש פתרונות לצ'אטבוט בשירותים הממשלתיים באתרי Gov.il, גילינו שיש בעיה רוחבית במשק: חוסר דיגיטציה של השפה העברית", מסבירים יוגב שמני, מנהל יחידת ממשל זמין ברשות התקשוב הממשלתית, ויראל אשרת, ראש תחום חדשנות ברשות. "כולנו משתמשים בשירותים דיגיטליים - סירי, אלכסה, גוגל. אנחנו יודעים שזה עובד היטב באנגלית, אבל בעברית זה מוגבל".

אנשים מדברים להומפוד של אפל ולעוזרת סירי
חנות אפל בניו יורקצילום: SHANNON STAPLETON/רויטרס

ברשות התקשוב לוקחים על עצמם משימה לא פשוטה – לנסות לתקן את המצב. הם נפגשו עם גורמים רבים העוסקים בתחום, בתעשייה, באקדמיה ובהיי-טק – וכעת רוצים ליצור מאגר מידע שישמש לאימון מכונות להבנת השפה העברית, שיהיה זמין לשירותים הממשלתיים, לסטארט-אפים ולחברות גדולות. בשבוע שעבר הרשות הכריזה על פיילוט של "קורפוס מתויג ידני של עברית בת-זמננו" - מסד נתונים עם מאגר טקסטים עם תיוג מורפולוגי ידני בתקן UD. כלומר, זהו מאגר של משפטים בעברית, המפורקים למרכיביהם ומתויגים על ידי בלשנים. טבלה שבה כל מילה מקבלת רשימת מאפיינים (הקשר, נושא, נשוא, זמן וכן הלאה) המסייעים להבין את הכוונה במשפט.

ברשות מסבירים שבאמצעות המאגר הזה יהיה אפשר לאמן את המחשב כדי להבין טוב יותר טקסטים, הקשרים וכוונה. בראש ובראשונה המאגר אמור לסייע בעתיד ליצור צ'אטבוט עבור שירותי הממשלה השונים: במקום להיכנס לאתר להוצאת דרכון ולעבור שלבים שונים, יהיה אפשר לבקש להוציא דרכון בשפה טבעית, כשיחה טקסטואלית או קולית עם בוט.

אבל המאגר יהיה גם פתוח לשימוש סטארט-אפים ואף ענקיות טכנולוגיה. "כל חברה תוכל להשתמש בזה כדי לפתח אמצעים לדבר עם הרכב החכם והבית החכם, לשפר נגישות לאנשים עם מוגבלויות, ועוד", הם אומרים. "החזון הוא לעשות דברים כמו 'גוגל דופלקס' - השירות של גוגל שמאפשר להזמין תור למסעדה באמצעות סייעת קולית".

הפיילוט נעשה בשיתוף האקדמיה ללשון עברית (שאנשיה תייגו את המשפטים) ועם פרופ' רעות צרפתי מאוניברסיטת בר-אילן. התוצר, הכולל כרגע 600 משפטים מתויגים, פורסם לצורך שימוש חופשי לציבור, וברשות קוראים גם לציבור לשלוח משוב והתייחסויות. למסד הנתונים לחצו כאן

מדובר כרגע במאמץ פנימי קטן, אבל ברשות מקווים להרחיבו. "ככל שישוחררו יותר משפטים בקורפוס, המכונות יגיעו מהבנה של 40-30 אחוזים כיום ל-80-70 אחוזים כמו באנגלית. זה גם עוד דרך וצעד להבין אם שיטת התיוג שבחרנו בה היא הנכונה. זה תהליך למידה", אומרים שמני ואשרת.

אלקסה
אלקסה של אמזוןצילום: Mike Stewart/אי־פי

איך לעבד את השפה?

הפיילוט בתחילת הדרך, אבל לא כולם משוכנעים שזהו נתיב נכון שאכן יקרב אל היעד: עוזרות קוליות כמו קורטנה, גוגל, אלכסה וסירי ושלל צ'אטבוטים שמשוחחים בעברית צחה.

"לא הייתי אומר שמאגר עם תיוג מורפולוגי הוא מה שמפריד בינינו לבין קורטנה בעברית", אומר מומחה לעיבוד שפה טבעית מהאקדמיה. "זה בהחלט טוב ומבורך שיהיו קורפוסים מתויגים. אבל האם הניתוח המורפולוגי הוא אכן נחוץ? האם זה מקדם לקראת אפליקציות? לא חד משמעית, והדעות על כך חלוקות. יש שיטות אחרות של עיבוד שפה טבעית שאינן דורשות תיוג כזה, והטרנד כיום בלמידה החישובית הוא דווקא אוטומציה ושיטות חכמות לעיבוד נתונים".

לדוגמא, בגוגל החלו לאחרונה להשתמש בטכניקה בשם BERT לעיבוד שפה טבעית המסייעת להבין כוונה של גולשים שהקלידו מונחי חיפוש. אלה מודלים ממוחשבים שמעבדים מלים ביחס למלים האחרות שבאות לפניהן ואחריהן במשפט, ומבוססים על עיבוד כמויות גדולות של נתונים.

לכל היותר, מעריך המומחה, תיוג מורפולגי כזה הוא רק חלק מהפתרון. "תיוג מורפולוגי הוא רובד מאוד בסיסי של הבנת השפה, שכל אחד יכול להשתמש בו - אבל באותה מידה ייתכן שאין בו צורך".

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker