עברית שפה קשה

יש ערך רב בניתוח של טקסטים מסוגים שונים ■ יש יישומים שימושיים רבים לניתוח טקסט. צריך רק לוודא שהם מתאימים לשפה שמופיעה בטקסטים שלכם

יעקב רימר
ד"ר יעקב רימר
תשבץ היגיון מס' 1666
יעקב רימר
ד"ר יעקב רימר

בפוסט הקודם ציינתי דוגמה אחת ליישום של ניתוח טקסטים לטובת "זיהוי מחבר" (authorship identification). קיימים עוד שימושים רבים מאוד לניתוח טקסטים. בפוסט הזה אזכיר עוד כמה דוגמות ליישומים, מכיוון שכזכור מטרת הבלוג לנסות להמחיש לקוראים ולקוראות מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

בפוסט בו עסקתי בשיטת האשכול ציינתי כי חלוקה של טקסטים לקבוצות מאפשרת לקבל תובנות חדשות מעצם החלוקה. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אשכול על המילים שבתשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. חלוקה באמצעות אשכול תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

אפשר כמובן גם להשתמש בשיטות של סיווג ולקבל תוצאות שימושיות. לדוגמה, אני מעוניין לקבל חדשות על תקיפות סייבר בעולם. עומדות לפני מספר אפשרויות. להירשם לבלוג (או טוויטר) של "רכלן סייבר" (כן, יש כאלו) ולקוות שהוא יספק לי את כל החדשות שאני צריך. לחילופין, אני יכול לבנות מילון קצר שיורכב ממספר מילים שמאפיינות את מה שמעניין אותי (בדומה לדוגמה שנתתי בפוסט הקודם בנושא כדורגל). קיימים יישומים שמאפשרים לחפש מסמכים שמתאימים למילון באופן שוטף. אפשרות מתקדמת יותר היא להשתמש בשירות ש"לומד אותי", שנפוץ ברשתות חברתיות. השירות עוקב אחרי הכתבות שאני בוחר לקרוא מתוך אלו שהוצגו לי. על סמך הדוגמות האלו הוא יסווג (או יסנן) להבא את החדשות שמעניינות אותי מתוך כלל הכתבות. בטווח הרחוק זה יהיה יותר יעיל, אבל במחיר של ויתור על פרטיות התכנים שאני קורא.

עד כה הדוגמות עסקו במסמך כולו כישות אחת. אבל כשעוסקים בטקסטים, יש משמעות רבה גם לחלקים בטקסט. ניתן אמנם להפעיל את השיטות לעיל גם על חלקי מסמך (כגון פסקות), אבל לא לכך הכוונה. אפשר לגזור באופן אוטומטי מידע מעניין שמופיע בתוך הטקסטים. לדוגמה, ברשת קיימים אתרים רבים שמכילים מידע רפואי. אתרים כאלו מסייעים בקבלת אבחונים של "ד"ר גוגל", אבל מסתבר שאנשים גם נוטים לשתף בחוויות שעברו עליהן. למשל תופעות לוואי של תרופות שהן נוטלים.

זהו מידע יקר ערך. אם יודעים למצוא ולרכז אותו, אפשר ללמוד ממנו על שכיחות של תופעות לוואי של תרופות, או של צירופים של תרופות. מצד אחד כדי לנסות לזהות יותר מוקדם תופעה חמורה נוספת שקיימת בתרופה. מצד שני, אולי אפילו שימוש אפשרי נוסף בתרופה. למשל, ויאגרה פותחה במקור כתרופה להורדת לחץ דם. היא אמנם נכשלה בניסוי, אבל התברר במפתיע שהנבדקים סרבו לוותר עליה...

באופן דומה ניתן לנתח כתבות או דיווחים שעוסקים בחברות או במניות ולנסות לזהות תהליכים שעשויים (או עלולים) להשפיע על ביצועי המניה, בשאיפה לפני שאחרים מזהים אותם. ניתן לנתח ביקורות אודות בתי מלון או מוצרים ולנסות להבין את היתרונות והחסרונות שלהם. במקרה הזה נדרש כמובן להתמודד גם עם זיהוי וסינון של פרסומות או ביקורות "מטעם", אבל הרעיון הבסיסי דומה.

וואטסאפצילום: DADO RUVIC/רויטרס

זה הזמן להתייחס גם למספר אתגרים משמעותיים בניתוח טקסטים, בעיקר בשפה העברית. ראשית, מאז מגדל בבל אנשים דוברים שפות שונות רבות. ניתוח טקסטים תלוי בדרך כלל בשפה ולצערנו ניתן למצוא הרבה (אבל ממש הרבה) יותר טקסטים באנגלית מאשר בעברית. שנית, כל שפה נכתבת באופנים שונים (=משלבים) כגון שפה מליצית, שפה תקנית או סלנג, ויש גם את השפה שבני נוער כותבים בווטסאפ וב"אינסטוש" שבימים טובים מזכירה עברית.

בפוסט הקודם ציינתי שבעקרון ניתן לנתח טקסטים בגישה של NLP - עיבוד שפה טבעית (Natural Language Processing), או להשתמש בשיטות סטטיסטיות בהן מתייחסים אל האותיות, המילים וסימני הפיסוק כאל נתונים "רגילים".

כלל האצבע הוא שככל שצוללים יותר אל תוך הטקסט ומנסים לגזור מתוכו תובנות, גישת ה-NLP תהיה איכותית יותר. הבעיה היא ששיטות NLP תפורות בדרך כלל לשפה מסוימת. כלומר, שיטה מוצלחת שפותחה לניתוח שפה מסוימת, כמעט תמיד תדרוש התאמות לצורך הפעלתה על שפה אחרת. לפעמים מדובר במאמץ קטן יחסית, ולפעמים המאמץ משמעותי מאוד. ולצערו של העם היושב בציון, בהקשר הזה עברית שפה קשה. לסיכום, יש יישומים שימושיים רבים לניתוח טקסט. צריך רק לוודא שהם מתאימים לשפה שמופיעה בטקסטים שלכם.

לחצו על הפעמון לעדכונים בנושא:

כתבות מומלצות

בת ים

שתי דירות במחיר אחת: האם זהו עתיד תחום הפינוי-בינוי?

אפליקציית קלארנה. החברה נמצאת במגעים לגיוס סבב חדש לפי שווי שנמוך בכ-30% מהשווי שקיבלה לפני שנה בלבד

"היערכו לגרוע מכל": נבואות החורבן בהיי-טק מתחילות להגשים את עצמן

בניין דירות בחולון

לקחתם משכנתא בחודשים האחרונים? גם אתם כבר שילמתם על עליית הריבית

"כשבאנו לקבל משכנתא לרכישת הבית, התברר שהבעיה לא פשוטה כלל"

הריבית במשק מזנקת – מה כדאי לעשות עם ההלוואות שלקחתי?

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

המשווקים של פוליסות החיסכון הם סוכני הביטוח, שנהנים מעמלות שמנות

"הציעו לי להעביר את החיסכון מאלטשולר. האם כדאי לי?"

אירוע של חברת איירון סורס. חברות שואפות למתג את עצמן כצעירות ואטרקטיביות

"אנשים חושבים לעצמם - איזה משכורות, איזה טירוף. בפועל זה רחוק מאוד מהמצב"