תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

עורכי דין, רופאים ואנליסטים: זו הסיבה לכך שבקרוב המקצוע שלכם ישתנה לחלוטין

לכתבה
הרובוט נאו, המופעל באמצעות ווטסון של יבמ, בתצוגה בתערוכת המובייל בברצלונה, אשתקדבלומברג

אחד האפיקים שחווים התקדמות משמעותית בתוך עולמות הבינה המלאכותית הוא עיבוד שפה טבעית - NLP ■ המטרה: להבין כיצד אנחנו מתקשרים ■ התוצאה: בעיקר יעול תהליכי עבודה המבוססים על קריאה של חומר טקסטואלי נרחב

26תגובות

שוק העבודה לא יהיה מקום קל בשנים הקרובות: הקצב המהיר שבו מתפתחים הכלים הטכנולוגיים אמנם מייצר מקצועות חדשים — אבל עלול להביא בתוך פרק זמן קצר לחיסול של תחומי תעסוקה מסורתיים שלמים. אחד הזרזים של המגמה הזאת הוא כניסתה של טכנולוגיות הבינה המלאכותית — ובראשן זיהוי קול ושפה לשימוש שוטף במרחב הדיגיטלי ובתחומי חיים רבים.

ענקיות הטכנולוגיה כבר מעמיקות את יכולותיהן בתחום. גוגל מאפשרת ניתוח טקסט בענן, אמזון מאיצה את הפיתוח סביב אקו, ובחברת יבמ חוקרים ומפתחים כלים לעסקים המבוססים על הבנת שפה. אחת הדוגמאות לכך הוא הדיבייטור — הג'וב החדש של מחשב העל ווטסון (Watson) מבית יבמ. אחרי שמיצה את הקריירה שלו כשחקן שעשועוני טריוויה ושף, ובעודו מתמחה ברפואה ובלוחמת סייבר, נותר לו זמן גם להתמחות בעריכת דין.

לא רחוק היום שבו במקום לבזבז שעות מול מכונת הצילום במשרד, יוכלו מתמחים בעריכת דין להזין למערכות הבינה המלאכותית את השאילתות שהבוסים הבכירים שלהם דרשו, והמערכות השונות, יחלצו את התוכן הרלוונטי מתוך הררי המידע הנגישים לו. זה לא אומר שלמתמחים לא תהיה עבודה, אבל העזרה של הדיבייטור תשחרר אותם לבצע מטלות חשובות יותר והם יוכלו לנתח טוב יותר את החומרים שמערכת הבינה המלאכותית ריכזה עבורם.

בינה מלאכותית התקבעה בשנתיים האחרונות כמונח הנפוץ ביותר בתעשיית ההיי־טק והטכנולוגיה. צמד המלים האלה, שנשמעות עדיין כמו רעיון מסרט בדיוני, אינו אלא תשתית אמיתית, רחבה ומבוססת ליותר ויותר כלים שנמצאים בשימוש יומיומי כמעט בלי שנדע על קיומם, כמו מנוע החיפוש של גוגל, וכאלה שבשנים הבאות עשויים לשנות לחלוטין פעילויות יומיומיות כמו נהיגה.

בבסיס מה שנקרא בינה מלאכותית יש כמה מודלים חישוביים. המוכר שבהם כיום, כזה שכל סטארט־אפיסט אוהב לשבץ בהצגת המיזם הטכנולוגי שלו, הוא למידת מכונה או למידה חישובית (Machine Learning). מושג נוסף שתפס תאוצה בשנה האחרונה ושסביבו נוצר הייפ בקרב הקהילה הטכנולוגית הוא למידה עמוקה (Deep Learning), תת־קטגוריה בתוך למידת המכונה, שמבוססת על רשתות נוירונים מלאכותיות המחקות את תהליך הלמידה במוח האנושי. תחילת המחקר בתחום הלמידה העמוקה נטוע בשנות ה–80, אך בשנים האחרונות, בעקבות התפוצצות העולם במידע (Data) זמין ומתויג יחד עם מחשוב חזק יותר — חלה קפיצה משמעותית ביכולות אלה.

כאשר מחשבים באמת יבינו שפה המקצועות שיושפעו ממהפכת השפה

הגביע הקדוש של הבינה המלאכותית

הייצוג הבולט ביותר של היכולות האלה כיום הוא ניתוח תמונה וראייה ממוחשבת, כלומר היכולת של מחשבים לציין מה יש בתמונה. יכולות אלה הוטמעו ברשתות חברתיות לצורך זיהוי פנים, המשיכו לפיתוח כלי עזר לרדיולוגים בפענוח תוצאות דימות, ובעתיד הקרוב יהוו את התשתית הקריטית לבניית יכולת ראייה של מכוניות אוטונומיות. מלבד זיהוי של מרכיבים ויזואליים, מערכות לומדה מיושמות כיום גם במערכות לחיסכון באנרגיה, בזיהוי מתקפות סייבר ובעבור כל גוף גדול של נתונים שאפשר לגזור ממנו תובנות.

אחד האפיקים שחווים התקדמות משמעותית באחרונה, אך נמצא עדיין מאחור בהשוואה ליכולות עיבוד תמונה, הוא עיבוד שפה טבעית (ׁNatural Language Processing — NLP) או הבנת שפה טבעית (NLU) — תת־תחום של בינה מלאכותית ובלשנות. לצד המחקר האקדמי, ענקיות הטכנולוגיה משקיעות מיליארדי דולרים בפיתוח מערכות לומדה בתחום השפה. ההשלכות של יכולות אלה מגוונות, הרבה מעבר לעוזרים הווירטואלים — סירי של אפל, קורטנה של מיקרוסופט או אלכסה של אמזון. מערכות אלה, שמבוססות על יכולת זיהוי דיבור, עדיין אינן מסוגלות להבין היטב הקשרים ושפה טבעית.

אלן טיורינג
BLOOMBERG

את ראשית מחקר עיבוד השפה נהוג לייחס לאלן טיורינג, שפירסם ב–1950 את עבודתו "Computer machinery and Intelligence", שממנה נולד מבחן טיורינג המפורסם. המחקר גרס כי מחשבים יוכלו להיחשב תבוניים כשיוכלו לבצע שיחה עם אדם בלי שהאדם יבין שהוא מדבר עם מכונה. אף שלמידת שפה נתפשת כפעולה טבעית — מדובר באחד האתגרים הקשים ביותר בעולם המחשוב, ולא בכדי כינה באחרונה סגן נשיא בכיר בגוגל, ג'ון ג'יאננדריאה, את תחום הבנת השפה, "הגביע הקדוש" של הבינה המלאכותית. ביום שבו יבינו מחשבים את השפה האנושית על גווניה השונים, נוכל לראות את המכונות מבצעות פעולות מסובכות יותר משאנו מכירים כיום.

כמו בשאר ענפי הבינה המלאכותית, המרכיבים העיקריים שאיפשרו את התקדמות היכולות הטכנולוגיות הם דאטה — כמות עצומה של מידע מתויג; כוח מחשוב — שמשתפר כל הזמן; ואלגוריתמיקה, שמתפתחת לצד התקדמות שני התנאים הקודמים. ואולם להבדיל מזיהוי תמונה, שהיא ייצוג סטטי של המציאות, השפה היא דינמית וכמות הייצוגים של כל מלה יכולה לקבל פרשנות שונה בכל משפט.

במונחים של ראייה ממוחשבת, חוקרים טוענים כי השפה תהיה דומה יותר לווידאו. לשם המחשה, דמיינו את מספר הפעמים שבהן הודעות טקסט ששלחתם או קיבלתם במסגרת התכתבות עם אדם, לא הובנו כראוי על ידי אחד הצדדים. למחשב שאינו מביא בחשבון את ההיכרות האישית וסגנון הדיבור — משימות אלה קשות פי כמה.

עופר לביא, מנהל קבוצת מחקר ללמידת מכונה במעבדות יבמ בחיפה, שבה נבנית מערכת המחשוב הקוגניטיבי של החברה, ווטסון, מסביר מדוע הבנת שפה טבעית היא אחד האתגרים המשמעותיים בתחום המחשוב. "השפה היא דינמית ומשתנה כל הזמן. קובצי המידע שקיימים באינטרנט כיום שונים מאוד משלבי השפה שאנחנו גדלים אליה, כך שקשה לאפיין למידה של שפה עבור מחשב. להבדיל מתמונות, שהן תמיד דגימה של העולם, יכולת הבנת ההקשרים השונים, רוח התקופה, מקום המלה במשפט ועוד פרמטרים, הופכים את ניתוח השפה למורכב. כדי ליצור לתחום השפה מודל חישובי מבוסס למידה עמוקה נדרשות בקיאות ויכולת שימוש בידע בשפה, בסמנטיקה ובבלשנות".

הכלי הפופולרי ביותר כיום שעושה שימוש בלמידה עמוקה בשפה הוא מנוע התרגום של גוגל, גוגל טרנסלייט. כניסת מודלים של למידה עצמית של מחשבים מציגה שיפור דרמטי ביכולות התרגום. במדידה שערכו במגזין "אקונומיסט" הראו כמה קרובים מודלים אלה לתרגום חופשי של שפת אדם — הרבה יותר ממערכות התרגום המסורתיות שנבנו במשך שנים באופן ידני על בסיס חוקים (Rule Based). "מערכות המבוססות למידה עמוקה נותנות, להבדיל ממערכות מבוססות חוקים, מענה מקצה לקצה", טוען לביא.

"מאז שווטסון פועל יש חוק שקובע שהמחשב לא יחליט בשבילך. אנשים רוצים שהמחשב יחליט באיזו מניה להשקיע — אבל זה לא אפשרי. המחשב יכול רק לתת כלים לקבל החלטות מוצלחות יותר"

עופר לביא
תומר אפלבאום

לביא מסביר כי ה–NLP המסורתי מתחיל בניתוח מורפולוגי, ממשיך בניתוח תחבירי, לאחר מכן ניתוח המשמעות ולבסוף חיבור המשמעות למציאות בעולם. "כיום, בעזרת רכיב הקרוי LSTM (Long Short Term Memory), שיודע לטפל ברצפים של מלים, המחשב בונה זיכרון ויודע לבנות ממנו ייצוג של משפט, או להפך. את זה הוא לומד לדוגמה על ידי הזנה של כל תוכני ויקיפדיה לתוכו. לאחר שהמערכת הוזנה, מתחיל שלב של אימון במטרה להבין את כל התלות הסטטיסטית שיש בשפה. התוצאה הרצויה היא שאחרי מספר מסוים של מלים המחשב יידע לצפות מה המלה הבאה שצריכה להופיע".

איך מלמדים אותו?

"מכניסים לו מלה אחרי מלה ומצפים שבכל רגע נתון הוא יחזה את המלה הבאה. אם הוא טועה, הוא מקבל עונש. הדברים האלה מתבצעים באופן אוטומטי. אם נחשוב על משפט: 'ילדים אוהבים…' אנשים יענו מגוון תשובות, ייתכן שלא מעט מהן יהיו קשורות לממתקים. היכולת שלנו לחזות את ההמשך מבוססת על ההיכרות שלנו עם העולם — אבל ההיכרות הזאת מוחבאת בתוך שפה. המטרה היא שגם המחשב יוכל לחזות בצורה טובה יותר או פחות את ההשלמה למשפט כזה".

אבל ממתקים ושוקולד יכולים להיות שונים לגמרי עבור מחשב.

"כמעט נכון. כים ניתן ללמד את המחשב מהי המשמעות של מלה. אני שואל מה משותף לממתקים ושוקולד. יש מי שיגיד שזה משהו פנימי — הרכיבים של שני הדברים, אחרים ידברו על תחושה. אם נבנה עץ לבחינת המלה, אז ממתקים הם קטגוריה, ושוקולד יהיה ענף בתוך אותו עץ. אבל אני אומר שאת הידע על הדמיון בין השניים אפשר לגזור לא רק מדברים שאנחנו יודעים, אלא גם מהשפה. אני אמצא ששוקולד וממתקים מופיעים בהקשרים דומים מאוד, ובעצם אעשה רדוקציה להקשר הבודד הזה. לשם כך צריך טקסט רב שיוזן לתוך המנועים שאנחנו בונים".

אחד האלגוריתמים המוכרים בעולם הבינה המלאכותית, שמאפשר את חלוקת המלים למשפחות נקרא Word2Vec, שפיתח חוקר בגוגל בשם תומס מיקולוב. אותו אלגוריתם מאפשר למצוא ייצוג של מלה בשפה. כך למשל, צמד המלים שוקולד־צ'יפס יכול להתייחס לסוג של עוגייה, ויכול להתפרק לממתק ושבב של מחשב (Chip). הבנה של הקירבה בין המלים תעזור בתרגום.

מחשב העל ווטסון מבית יבמ
בלומברג

"למה שמערכת כזאת לא תגיע גם לשופטים?"

עדות נוספת לעליית התחום היא מספר הסטארט־אפים שממתגים את עצמם כמפתחים של מנועי NLP, כניסתם של צ'ט־בוטים שמנסים להבין שפה, ורכישות בתחום של חברות טכנולוגיה גדולות.

כאשר חושבים כיום על עיבוד שפה, עולה מיד השימוש הגובר בצ'ט־בוטים, אך התקדמות המחקר והפיתוח בתחום השפה הטבעית צפויים להביא לעולם כבר בשנים הקרובות כמה כלים שיעזרו בייעול משימות — למשל ביכולת קבלת החלטות. "אם עד כה מערכות של מתן תשובות לשאילתות, עבדו רק על שאלות שתשובתן היא עובדה, כמו 'מי הוא נשיא ארה"ב?' — כיום השאלות מתקדמות ומסובכות יותר, ומרכיב השפה הטבעית נכנס ונהפך משמעותי", אומר לביא.

"מנהל בארגון שרוצה לדעת בדיוק איך השפיעה פעילות מסוימת על מכירות, הוא לא בהכרח האדם שיודע לתפעל מערכות לבדיקה הרווחות כיום, ולא פעם הוא יבקש מעובד אחר, שזה תפקידו, להשיג את המידע. כאשר יכולות המחשוב בתחום השפה ישתפרו — כל עובד יוכל לגשת למידע בצורה נוחה יותר על ידי שימוש בשפה טבעית כממשק".

"צ'ט־בוטים הם רק ממשק הקצה למשהו הרבה יותר עמוק", מחדד לביא. "היכולת לנתח מסמכים, למשל, בצורה שמתאימה לכל אדם, יכולה לחולל שינוי בהרבה תעשיות. כשעורך דין קורא מסמכים יש לו כוונה מסוימת בראש, הוא מתכונן אולי למשפט. לאותו עורך דין יש לקוח עם סיפור מסוים והוא רוצה למצוא טיעונים שעוזרים ללקוח, ואולי גם לנסות ולעמת את הצד השני עם דברים. אפליקציה כזאת של ניתוח שפה טבעית וסמנטית היא עמוקה יותר ממה שאנחנו רואים כיום".

אם עד כה מערכות של מתן תשובות לשאילתות, עבדו רק על שאלות שתשובתן היא עובדה, כמו 'מי הוא נשיא ארה"ב?' — כיום השאלות מתקדמות ומסובכות יותר, ומרכיב השפה הטבעית נכנס ונהפך משמעותי"

מתכנת בתחרות שנערכה בכנס של מייקרוסופט. החברה ניסתה אשתקד לשחרר צ'ט־בוט בטוויטר, ניסוי שנכשל לאחר שהבוט למד מילים גזעניות ומיזוגניות.
בלומברג

מה אנחנו צפויים לראות בקרוב?

"בשנה הקרובה נראה דברים גדולים. עד כה מרבית המערכות האלה היו מבוססות על אלגוריתמים מיושנים, שהניחו מראש מה הלקוח ירצה. היו להן תסריטים מוכנים. אנחנו צפויים לראות מערכות שבנויות אחרת ומסתמכות יותר על פתרונות מקצה לקצה, ללא הגבלות. כמו כן, נראה מעבר להתבססות על מידע לא מתויג — Unsupervised Data.

אחת המערכות הנבנות כיום במעבדות יבמ בישראל, שהיא הגדולה ביותר מחוץ לארה"ב, מכונה דיבייטור, שבחזון הארכיטקטים הראשיים בחברה תוכל לספק תובנות והמלצות במגוון נושאים. מערכת כזו תוזן בכמויות אדירות של מידע, טקסטים על גבי טקסטים בתחומים שונים, כמו רפואה או משפטים, תלמד אותם — ותספק בכל רגע נתון תשובה מנומקת לשאלות רבות בשפה חופשית.

"זה לא מקרי שהתחום הראשון עבורו נבנה ווטסון היה רפואה. מדובר במקצוע שבו אנשים קורסים תחת העומס של מידע. כל מה שיכול להקל עליהם יציל חיים".

מה יקרה כשמערכת כזאת תיכנס לשימוש. בית המשפט יישתנה?

"מקצוע עריכת הדין ישתנה. הראשונים שירגישו את זה הם המתמחים, שבמקום לצלם מסמכים, יעבדו בצורה אנליטית. הם יוכלו להגיש למנהל מידע מעובד ולעוס יותר מאשר קודם לכן. אותם עורכי דין יוכלו לנצל את הזמן שלהם טוב יותר. לגבי בית המשפט — מערכות עוזרות בקבלת החלטות. אמנם זהו נושא הדורש מעקב של אתיקה ואישורים, אבל מדוע שמערכת כזאת לא תגיע גם אל השופטים? אולי דבר כזה יוכל לשים את השופט בעמדה נקייה יותר מזו שהוא נמצא בה כיום, ללא השפעות חיצוניות".

בחינות ללשכת עורכי הדין
אוליבייה פיטוסי

מי שהשיקה מוצר דומה שנמצא בשימוש מסחרי היא LawGeex, סטארט-אפ ישראלי שמייתר את הצורך בעורך דין למגוון סוגי חוזים משפטיים. החברה משתמשת באלגוריתמיקה שצויינה כדי לנתח ולבחון לעומק חוזים משפטיים, ולהחזיר אותם למשתמש עם ציון הסעיפים הבעייתיים אליהם הוא צריך לשים לב, כמו עורך דין אנושי - רק מהר יותר, ובעלות נמוכה יותר.

לביא מוסיף כי גם בשוק הפיננסי טכנולוגיה כזו עשויה ליצור מהפכה. "אנליסטים בתחום ההשקעות שמדווחים על חברות, מספקים דו"חות — ויש את אלה שקוראים את הדו"חות שלהם. עם זאת, ידוע שלאחר שאנליסט עוקב אחרי חברה זמן רב, בין אם אותו אנליסט הוזמן לארוחת ערב או לא — או שהוא מתאהב בחברה או להפך. קשה לשמור על איזון. מערכת ממוחשבת תוכל לשמור על כך. היא תוכל לקרוא את דו"חות האנליסטים בצורה שקולה יותר — ואולי אף לכתוב אותם באופן כזה".

המחשב לא עובד לבד

זה לא עוצר כאן. המערכות יאפשרו לסכם כל טקסט שאדם קורא — וכך גם חיי הסטודנטים ישתנו. מערכות כאלה כבר נמצאות בשוק, בין אם על ידי יבמ או גוגל. "זה לא אומר שלא יהיו עבודות לסטודנטים, יהיו — אבל המיקוד יהיה בחשיבה ביקורתית, ופחות בסיכום העובדות. המחשב יוכל לעזור לכתוב מאמר וימליץ על מקורות, או יגיד אם ניתן ביטוי לשני הצדדים", מוסיף לביא.

מה קורה כאשר הדאטה — הנפט של הבינה המלאכותית — לא איכותי מספיק? אנחנו רואים תופעה של הפצת שקרים. זה דאטה בעייתי.

"כדי ליצור לתחום השפה מודל חישובי מבוסס למידה עמוקה, נדרשות בקיאות ויכולת שימוש בידע בשפה, בסמנטיקה ובבלשנות"

עופר לביא
תומר אפלבאום

"אם מדברים על שאלות עובדתיות — זה די פתור. ווטסון ניצח בג'פרדי כבר ב–2011. הסתמכות על דאטה שאינו מספיק טוב יכול להוביל למסקנה או החלטה לא נכונה. לכן, מאז שווטסון התחיל לפעול יש חוק שהמחשב לא עובד לבד. הוא לא יחליט בשבילך. אנשים היו רוצים שהמחשב יחליט עבורם באיזו מניה להשקיע — זה בלתי־אפשרי. המחשב יכול לתת יותר כלים לקבל החלטות מוצלחות יותר. אם הוא נותן המלצה לא טובה, איש מקצוע צריך להסתכל על זה בעיניים ביקורתיות. בנקודה שנבין שהוא טעה — חשוב לתת לו פידבק, כך נקבל מחשב יותר טוב".

מעבר לבדיקת הדאטה, ההסתמכות כיום על מודל הלמידה העמוקה מעלה שאלות שלעתים אינן פתורות באופן מתמטי. כך למשל, כיצד הגיע המחשב בתהליך הלימוד למסקנה אליה הגיע? "זה חסר כיום בשיטות של למידה עמוקה ומתנהל מחקר לגבי השאלות האלה", אומר לביא. "כדי שרופא יקבל החלטה על פי למידה עמוקה צריך לייצר מנגנון שקיפות על המודל".

החיים של עורכי הדין, הרופא והסטודנט יישתנו. של מי עוד?

"גם עבודת המתכנת תהיה שונה. גם תכנות הוא שפה. במשך השנים ראינו עלייה של שפות — סי, ג'אווה ופייטון — גם בשפות האלה הדברים יישתנו. את אותם הרכיבים שמבצעים בשפה רגילה, מחילים גם בשפות תכנות".

אז תכנות יהיה פשוט יותר?

"תכנות ייראה אחרת. המנכ"ל יוכל לתכנת בקלות. אני מותח את הגבולות — אבל זה העתיד. כיום יש מערכת המבוססת על אותו מודל, LSTM, שבמקום להזין לתוכה את כל ויקיפדיה הזינו את כל המקור של לינוקס ואמרו לה לתכנת קוד. כשמסתכלים על זה זה נראה קוד, זה רחוק מלעבוד, אבל זה בכיוון. בעיניים של מתכנת, אתה אומר וואוו".

זה מפחיד.

"אני איש של למידה. הטענה הזאת נאמרה על כל דבר שקשור בקידמה, ואני מאמין שנרתום את הדברים לכיוונים חיוביים".

הרשמה לניוזלטר

הירשמו עכשיו: סיכום דו שבועי בנושאי טכנולוגיה והייטק ישירות למייל

ברצוני לקבל ניוזלטרים, מידע שיווקי והטבות


תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות