חזרה לעמוד הבית
התחברותרכישת מינוירכישת מינוי
TechNation | מה זה בעצם
מה זה בעצם |

עיבוד שפה טבעית - NLP

הצלחה בעיבוד שפה טבעית היא הכרחית בפיתוח של אינטליגנציה מלאכותית שתתקשר עם בני אדם, אך על מנת להביא את המחשב להבנת השפה באופן מושלם, יש לעבור דרך מספר אתגרים שונים

עמרי גולדשטיין
17 בספטמבר 2018
17 בספטמבר 2018
שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
אנימציה לתיאור NLP, עיבוד שפה טבעית
צילום: איור: עדי עמנואל
עמרי גולדשטיין
17 בספטמבר 2018
17 בספטמבר 2018

עיבוד שפה טבעית (Natural Language Processing) הוא תחום התפר בין מדעי המחשב, אינטליגנציה מלאכותית ובלשנות. לעתים המושג משמש כשם נרדף לתחום הבלשנות החישובית, אולם בשימוש יומיומי ובעיקר בשנים האחרונות הכוונה היא יותר ויותר לשימוש במודלים מעולם למידת המכונה על מנת לאפשר למחשב להבין שפה טבעית ולתקשר עם בני אדם.

בדומה לתחומים אחרים של למידת מכונה, בשנים האחרונות אנחנו מוקפים ביותר ויותר אפליקציות שמשתמשות בעיבוד שפה טבעית. השימושים המוכרים הם סיווג דואר זבל, צ'אט בוטים, תשובות אוטומטיות, תרגום, זיהוי רגש (Sentiment Analysis), בדיקות איות ודקדוק, חיפוש, עוזרים אלקטרונים כמו סירי ואלקסה, זיהוי חדשות מזויפות, המלצות תוכן, תיקון אוטומטי ועוד. בחלק מהמקרים, כמו למשל זיהוי דואר זבל, ההצלחה של המודלים היא כמעט מוחלטת.

אלו אתגרים קשים מאוד מפני ששפה היא הרבה יותר משינון מילים. אין שום בעיה להזין מילון למחשב כך שידע לפלוט פירוש לכל מילה שיקבל, אבל זה לא יספיק כדי לאפשר לו להגיד אם מאמר מסוים מבטא כעס או שמחה – לשם כך המחשב צריך ללמוד להתמודד עם דו-משמעיות ולהשתמש בהבנת ההקשר, היגיון בריא ופרשנות לטקסט שאינו מכיל את כל האינפורמציה, שלא לדבר על אירוניה. קחו למשל את הכותרת הזו ממאמר במגזין טיים: The pope's baby steps on gays

כיצד תלמדו את המחשב שהמחבר רוצה לספר על ההתקדמות האיטית של האפיפיור ביחס לקהילה הגאה, ולא על כך שהתינוק שלו דורך על להט"בים? ומה עם Boy paralyzed after tumor fights back to gain a black belt?

לכן, על מנת להביא את המחשב להבנת השפה, יש לעבור דרך מספר אתגרים שונים – ראשית, זיהוי השפה. אם הקלט הוא ויזואלי (כלומר – תמונה של טקסט, נניח משלט ברחוב) יש צורך בזיהוי התוים מהתמונה (Optical Character Recognition – OCR). בדומה לכך כשמדובר בקול יש צורך בתרגום לשפה. הבעיה קלה יותר כשהקלט מלכתחילה מקודד ומיוצג באופן נוח להבנה על ידי מחשב, כמו בשליחת דואר אלקטרוני.

האפיפיור פרנציסקוסצילום: רויטרס

זיהוי השפה נמצא בתפר שבין עיבוד שפה לראייה חישובית/עיבוד קול. אולם, גם לאחר שהקלט מיוצג באופן אחיד ללא תלות במקור (שמע, תמונה וכו'), המחשב רחוק מאוד מלהבין אותו. הוא יכול להבין בקלות שהמילה "אמא" ו-"אבא" מייצגות דברים שונים, אבל כדי להבין את הקשר בין "כר" ל-"כרית" יש ללמד את המחשב לפתור בעיות מורפולוגיות (תחיליות, סיומות, הטיות וכדומה). בנוסף לכך, הבנת שפה אמיתית מצריכה הבנה תחבירית (מבנה המשפט, דקדוק), ובסופו של דבר הבנת משמעות הטקסט תוך התחשבות בהקשר. חשוב לציין שברוב המקרים אין הכוונה ללמד את המחשב את המשימות האלו באופן מפורש, אלא לקוות שילמד להתגבר עליהן בעצמו.

אז איך עושים את זה? עד לפני מספר שנים השתמשו בעיקר בשיטות למידת מכונה "קלאסיות", בהן בני אדם עם ידע רב הינדסו מאפיינים (פיצ'רים) כגון אורך הטקסט, השכיחות היחסית של מילים שונות וכו', והשתמשו ביכולות החישוביות של המחשב על מנת למצוא את הקשר ביניהן. בשנים האחרונות, לעומת זאת, עלה השימוש בשיטות למידה עמוקה בהן המודל מקבל את הקלט באופן כמעט גולמי ומבין את המאפיינים החשובים בעצמו.

שיטות קלאסיות יתבססו הרבה פעמים על דמיון בהרכב המילים. כך למשל אם נרצה להבין האם שני טקסטים מתייחסים לנושא דומה, נחפש מילים בעלות שכיחות יחסית גבוהה המופיעות בשני הטקסטים. לדוגמא, המילים "כדור" ו-"ניצחון" מופיעות בשכיחות יחסית גבוהה יותר במאמרים העוסקים בספורט. מילים כמו "את" ו-"עם", אשר שכיחות מאוד בכל טקסט, לא ילמדו אותנו הרבה על נושא המאמר ולכן נחשב את השכיחות באופן יחסי לשכיחות הכללית של המילים בכל הטקסטים.

לעתים נסתכל לא על מילים, אלא על רצפי מילים המופיעים יחד בשכיחות גבוהה בטקסטים העוסקים בנושא מסויים (n-grams - רצפים באורך n כלשהו), כמו למשל "ריצוף דנ"א" במאמרים על גנטיקה. על אף שמדובר בשיטות פשוטות מאוד, כאשר המודל יכול להתאמן על כמות גדולה מאוד של נתונים התוצאות עשויות להיות מרשימות, למעשה, עד לפני מספר שנים רוב האפליקציות התבססו על שיטות מהסוג הזה.

דוגמה מעניינת לשימוש בטכניקה של השוואת מסמכים על פי דמיון השכיחויות היחסיות של מילים ניתן למצוא באתר FiveThirtyEight. הפוסט ניתח דמיון בין קבוצות Reddit שונות על סמך המשתתפים (במקרה הזה שמות המשתתפים היו המקבילה למילים, והקבוצות למסמכים) כדי לאפיין את ה- Subreddit (קבוצה או פורום) של דונאלד טראמפ, והגיע למסקנות מעניינות ומטרידות, למשל על הקרבה בין הפורום לקבוצות שנאה כנגד שמנים. נשיא ארה"ב הוא מושא לפרויקטים נוספים בתחום עיבוד השפה הטבעית, וחשבון הטוויטר שלו בפרט. שימוש בטכניקות של Sentiment Analysis במהלך קמפיין הבחירות של טראמפ עמד על ההבדל בין הציוצים שמגיעים ממכשירי ה-iPhone וה-Android של המועמד טראמפ, והראה שהציוצים שמגיעים ממכשיר האנדרואיד, ולכן ככל הנראה מטראמפ עצמו ולא מעוזריו, בעלי רגש שלילי בהרבה בממוצע.

למידה עמוקה ורשתות נוירונים (בהרבה מובנים השימוש כיום בשני המושגים האלו הוא זהה) הביאה את התחום לשיאים חדשים. כאמור, בלמידה עמוקה אין צורך להנדס פיצ'רים כמו שכיחות יחסית של מילים, ואפשר להזין את הטקסט לרשת (כמעט) כמו שהוא, והרשת מוצאת את המאפיינים החשובים בעצמה.

רשתות מסוימות מתאימות במיוחד לקלט המכיל רצפים – כלומר, העובדה שיש לרוב קשר בין מילים עוקבות באותו משפט – על מנת לחזות את המילה או האות הבאים בדיוק מרשים. היכולת הזו מאפשרת לרשת לא רק לתקן טעויות דקדוק או איות, אלא אפילו לייצר טקסטים שלמים בעצמה. בפוסט הזה של אנדרי קרפטי (דמות חשובה מאוד בעולם הלמידה העמוקה) ניתן למצוא דוגמאות מדהימות לטקסטים שיוצרו על ידי מחשב, כולל דיאלוגים שייקספיריים, ערכים בויקיפדיה ומאמרים במתמטיקה.

הצלחה בעיבוד שפה טבעית היא הכרחית בפיתוח של אינטליגנציה מלאכותית שתתקשר עם בני אדם (כדי, למשל, לנצח במשחקי החיקוי של טיורינג). עתיד כמו זה המתואר בסדרה ווסטוורלד או בסרט "היא" אפשרי רק אם מחשבים יגיעו לרמה אנושית של עיבוד שפה טבעית. ההתקדמות בשנים האחרונות רומזת שאולי זה לא מדעי בדיוני.

עומרי גולדשטיין הוא דאטה סיינטיסט וכותב בלוג בזירת ההיי-טק של TheMarker בשם מבוסס נתונים

לחצו על הפעמון לעדכונים בנושא:

  • בינה מלאכותית

כתבות מומלצות

בנייני דירות בסין. המחירים יצאו משליטה - הגיע זמן לתיקון?

האוויר מתחיל לצאת משוק הדיור ברחבי העולם. להלן חמש דוגמאות

קומת המסחר בבורסת ניו יורק. נדרש אומץ לב גדול כדי לקנות כשהשווקים נופלים

אחרי נפילה של יותר מ-20%, הגיע הזמן לקנות מניות? זה המדד שצריך לבדוק

מטוס של וויז אייר. החברה הציעה פיצוי של 600 יורו

אל על מובילה בביטולים, המטוס של וויז אייר "קיבל מכת ברק": קיץ כאוטי בנתב"ג

רכבת תחתית בספרד. הקמת המטרו בישראל מוערכת בעלות של 150 מיליארד שקל

מיליארדים מהפקעות קרקע, סמכויות אגרסיביות, ופוליטיקה קטנה: המלחמה על חוק המטרו

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

על סדר היום

בראש החדשות:
  • ריבית
  • שכירות
  • מדד המחירים לצרכן
  • קריפטו
  • משכנתא
  • דיסני+
  • המהדורה היומית
אילנית פינטו־דרור. "על פי המחקר שלי, מורות ומורים בבתי ספר אליטיסטיים מגיעים מרקע דומה לזה של התלמידים"

"ההורים שלהם משלמים אלפי שקלים בשנה - והם מסתובבים בעולם כמו בעלי בית"

Heliostatic mirrors reflect sunlight at the Ivanpah Solar Electric Generating System in the Mojave Desert in San Bernardino County, California, U.S., on Saturday, Feb. 19. 2022. California aims to end greenhouse gas emissions from its electricity grid by 2045. Photographer: Bing Guan/Bloomberg

קליפורניה הצליחה לייצר 100% חשמל מאנרגיות נקיות. ואז התברר שאין לה מספיק ממנו

איש עושה הופעה במהלך רמזור על הכביש
מחזיק כדור עם מוט ארוך
תל אביב 
אפריל 2019

מאה 21
מעבר חציה
מעבר חצייה
שמיים
עננים
נדבות
פעלולים
פעלולן

אם את הקבצן ההומלס יחליף לוליין, האם לא יהיו יותר הומלסים?

תומכי הפלות מוחים בוושינגטון, השבוע

נטפליקס מול וולמארט: מלחמת ההפלות של חברות הענק

הדמיה של תחנת המטרו סבידור במרכז תל אביב. "מי זאת מיכאלי? הבת של מג"ד 184?"

"מצדי שתיחנקו עם הפקקים שלכם בתל אביב"

מחשב עם קוד

איך עוברים לפלטפורמת קוד פתוח בשפה אחת?

בשיתוף One Systems

מדדים של קסם

תוכן שיווקי
5 השביתות הגדולות בשנים האחרונות

5 השביתות הגדולות בשנים האחרונות

תוכן שיווקי
 4 חברות בענף הסייבר עם זווית ישראלית

4 חברות בענף הסייבר עם זווית ישראלית

תוכן שיווקי
 5 דברים שכדאי לדעת על "חוק מור"

5 דברים שכדאי לדעת על "חוק מור"

תוכן שיווקי
5 פסקי דין מהפכניים של בג״ץ בענייני תכנון ובנייה

5 פסקי דין מהפכניים של בג״ץ בענייני תכנון ובנייה

תוכן שיווקי

כתבות שאולי פספסתם

סטודנטים באוניברסיטה העברית בירושלים. שיעורי התעסוקה עולים בהתמדה עם העלייה ברמת ההשכלה

איך מטפסים לעשירון השכר העליון — ומי מצא דרך עקיפה כדי להגיע אליו

גמר אקס פקטור. הוחלט שלא תשמש יותר לבחירת הנציג לאירוויזיון

"הכל זה הוא": שורת עזיבות ורייטינג צונח - למה רשת מובסת בקרב מול קשת?

דה מרקר
  • Facebook
  • Twitter
  • Android
  • Apple
  • Email
  • RSS
  • רכשו מנוי
  • בלוגים
  • תנאי שימוש
  • צרו קשר
  • פרסמו באתר
  • שירות למנויים
להורדת האפליקציה© כל הזכויות שמורות
  • דיוורים
  • מערכת
  • הנהלה
  • רכשו מנוי
  • ביטול מנוי
  • שאלות ותשובות
  • צרו קשר
  • פרסמו אצלנו
  • הצהרת נגישות

מדורים

  • כל חדשות היום
  • שוק ההון
  • נדל"ן
  • בעולם

הארץ

  • הארץ
  • חדשות
  • תרבות
  • השבוע פודקאסט הארץ
  • ספורט
  • בחירות 2022
  • סקר בחירות
  • וורדעל

כלים שימושיים

  • האימייל האדום
  • RSS
  • צרו קשר
  • תקנון האתר
  • מדיניות פרטיות
  • מידע למנויים
  • מינוי
  • כנסים
  • נגישות

Haaretz

  • Haaretz.com
  • Israel News
  • Middle East News
  • Archaeology
  • Pinochet's Chile - Israel
  • A. B. Yehoshua
  • RRR
  • Yair Lapid

שיתופי פעולה

  • פעילויות ליום הולדת
  • מדריך הפנסיה
  • משקיעים במחר של תל-אביב בחסות גינדי TLV
  • השקעות נדל"ן בחו"ל
  • SUPERMARKER – צרכנות פיננסית
  • התחדשות עירונית
  • CitySquare
  • Detaly.co.il
  • מטבחי חוץ
  • עורכי דין
  • מינוס אחת
  • משרדי תיווך
  • מוסכים מורשים
  • גישור משפחתי
  • ביטוח חיים בארצות הברית
  • תכנון פרישה מקצועי
  • טיפול בוורטיגו
  • עורכת דין פלילית באשדוד
חדשות, ידיעות מהארץ והעולם - הידיעות והחדשות בעיתון הארץ. סקופים, מאמרים, פרשנויות ותחקירי עומק באתר האיכותי בישראל
© כל הזכויות שמורות להוצאת עיתון הארץ בע"מ