מי כתב את התורה? - מיסטר ביג ומר דאטה - הבלוג של ד"ר יעקב רימר - TheMarker
 

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

מי כתב את התורה?

מסתבר שלא תמיד חייבים להבין את משמעות הדברים כדי לקבל תוצאות. גישות שונות בלמידת מכונה לניתוח טקסטים - על קצה המזלג

תגובות
ספר תורה בשפה האמהרית

מי כתב את התורה? אלוהים יודע. את כל השאר אפשר לבדוק. מסתבר שקיימת "טביעת אצבע" אופיינית לסגנון הכתיבה של אדם, המאפשרת לזהות טקסטים שנכתבו על ידו ברמת ודאות מסוימת. זהו תחום מחקר הנקרא "זיהוי מחבר" (authorship identification) והוא מבוצע בשיטות למידת מכונה שונות לניתוח תוכן הטקסט. נבהיר שהניתוח אינו תלוי כלל בכתב ידו של המחבר, אלא רק בתוכן של הטקסט, גם כאשר הטקסט מודפס.

האם באמת אפשר להבדיל בין כתבים של אנשים שונים? בהחלט כן. לכל אדם יש סגנון, מילים וצירופים בהם הוא משתמש יותר או פחות מאחרים. הדוגמה המועדפת עליי היא סלידתו של דוד בן-גוריון ממילת היחס "את". למשל, אם הוא במקרה השאיל לכם את אחד מהספרים שלו, לא היה אומר לכם "אני מבקש את הספר בחזרה", אלא "אני מבקש הספר בחזרה". מכיוון ש"את" היא מילה נפוצה (מופיעה כאן 24 פעמים מתוך 659 מילים), היעדרה הוא סימן זיהוי מצוין לכתבי בן-גוריון. את פשוטי העם, ביחוד את אלו שאינם סולדים או מנסים להילחם במילים שונות, מעט יותר קשה לזהות. אבל כאמור אפשרי.

כל מה שצריך לדעת על קריירה בהייטק
כנסו למתחם

זו דוגמה אחת מיני רבות ליישומים של ניתוח טקסטים. בפוסטים קודמים הרביתי בדוגמות של ניתוח נתונים או תמונות, פחות מתחום הטקסטים. הגיע הזמן לאזן את התמונה, מכיוון שעולם הביג-דאטה עשיר מאוד גם בתכנים טקסטואלים מסוגים שונים: דו"חות, הערות, כתבות, פוסטים, ספרים, מאמרים, טוויטים, טוקבקים ועוד. טקסטים הם מטבעם "חופשיים" ומגוונים. זאת לעומת נתונים שבדרך כלל מקיימים חוקיות או תבניות מסוימות, כגון מספרים, תאריכים, ערכים מטבלה וכדומה.

ברמה העקרונית, ניתן לנתח טקסטים בשתי גישות עיקריות: להתייחס אל האותיות, המילים, וסימני הפיסוק כאל נתונים "רגילים", או לנתח את הטקסטים בגישה של NLP - עיבוד שפה טבעית (Natural Language Processing). כמובן שניתן גם לשלב בין שתי הגישות. אני מניח שחלקכם זוכרים במעומעם את שיעורי הדקדוק (המשעממים, יש שיאמרו). אולי אתם זוכרים שלמילים יש שורש, משקל, בניין והטיות. הן יכולות להיות שמות עצם, פעלים, תארים וכדומה. למשפטים יש גם תחביר ומבדילים בין נושא, נשוא, מושא ועוד. אני מניח שהבנתם את הרעיון ולכן אעצור כאן, לפני שאני מאבד את כל שני הקוראים ששרדו את הפסקה הזאת.

בעבר הרחוק (כלומר לפני עידן האינטרנט) הגישה הרווחת לניתוח טקסטים היתה באמצעות גישת NLP שמושפעת רבות מהגישה הבלשנית. יש בזה היגיון רב, הרי לטקסטים יש חוקי דקדוק ויש להם משמעות (סמנטיקה בעגה המקצועית). אך טבעי שיעשה שימוש בכל העושר הלשוני הזה (תרתי משמע) לניתוח שפה טבעית. לכן גם נולד תחום שלם הנקרא בלשנות חישובית שמשלב בלשנות "קלאסית" עם שיטות של מדעי המחשב. הגישה השנייה שהזכרתי, זו שמתייחסת לטקסט כאל נתונים "רגילים", הייתה בשימוש כמעט רק אצל שוברי צפנים.

האינטרנט שינה את התמונה. כעת יש כמויות אדירות של טקסטים בהישג יד, כולם בפורמט ממוחשב שניתן לעיבוד אוטומטי. ומסתבר שדווקא לגישה שמפעילה שיטות סטטיסטיות על אותיות, מילים וסימני פיסוק, בלי להתייחס כלל לטקסט "עצמו" או למשמעות שלו, יש יתרונות בשורה של יישומים שונים. אולי אנסה באחד הפוסטים הבאים להסביר מדוע, כעת אסתפק בדוגמא פשוטה להמחשה (ויסלחו לי אנשי ה NLP על חוסר הדיוק).

ביטון, במהלך משחק מול מכבי תל אביב בעונה שעברה. מכה להפועל באר שבע
שרון בוקוב

נניח שיש לי אוסף גדול של כתבות, ואני מעונין למצוא את כל הכתבות שעוסקות בכדורגל. אני יכול לפנות לשיטות ניתוח בלשני, שיסייעו לי לאתר טקסים שעוסקים בכדורגל. אבל אני יכול גם לבקש את כל הכתבות שחמשת צירופי האותיות הבאים יופיעו בהן: "הפועל מכבי כדור בעיטה שער". מדוע אמרתי צירופי אותיות ולא מילים? כי אני לא אתעקש למצוא דווקא את המילה "הפועל" ולא "הפועלים", או "מכבי" ולא "מכבי אש", או "כדור" ולא "כדורי". מבינים את הרעיון? אני לא אדקדק במשמעות האמיתית של המילה שבתוכה נמצא הצירוף שחיפשתי. אני פשוט מניח שאם יופיעו כל הצירופים האלו, אולי בכמויות מסוימות, סביר מאוד שהטקסט שאקבל יעסוק בכדורגל.

למרות הדוגמה הפשוטה לכאורה, הדברים כמובן מורכבים יותר. ראשית, אוהדי בית"ר בוודאי זועמים כי אפספס את כל הכתבות שלהם. מצד שני, אני אקבל גם את הטקסט (המומצא) הבא שאינו קשור לכדורגל כלל: "הפועלים הפגינו מול שער המפעל. אחד המפגינים ספג בעיטה ואחר כדור גומי בעת פיזור ההפגנה. מכבי האש כיבו את הצמיגים שהובערו". עדיין, בפועל גישה פשוטה זאת עובדת לא רע.

עוד על ניתוח טקסטים בפוסטים הבאים.



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות שאולי פיספסתם

*#