בחירות: פעם שלישית גלידאטה

הבחירות בישראל כבר נהפכו לסדרה בהמשכים. מהי סדרה עתית, וכיצד ניתן לזייף באמצעותה נאומים של הנשיא טראמפ

יעקב רימר
יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
שלוש חברות משיקות אחת לשנייה  שלושהגבעי גלידה צבעוניים
צילום: Gal Istvan Gal / Shutterstock.co

לפני בחירות 2019 א', כשהעורכת ביקשה ממני לכתוב טור בנושא ביג-דאטה בבחירות, עוד לא הבנתי שמדובר בסדרת כתבות. הפוסט הראשון בסדרה הסביר מדוע שיטות לחיזוי תוצאות הבחירות בישראל הן הבל. הפוסט השני עסק בפייק ניוז - ידיעות או שמועות שקריות שמטרתן מלכתחילה הטיית בחירות, או פרסום סקרי בחירות, גם ללא כוונת זדון. ומכיוון שבסדרות אנחנו עוסקים, נדבר הפעם על ניתוח של "סדרות עתיות" בהקשר של פוליטיקה ובחירות.

מהי סדרה עתית? רצף של אירועים מסודרים שקורים בזה אחר זה, כשמניחים שקיימת תלות כלשהוא בין האירועים האלו. יש הרבה מאוד דוגמאות לסדרות עיתיות, למשל שערי מניות בבורסה, תצפיות של מזג אוויר או נתוני בקרה של מכונות תעשייתיות. אפשר לנסות להפעיל שיטות שונות על סדרות עתיות. למשל, לנסות לזהות שגרה וחריגות משגרה, כפי שהמחשתי בנושא הגנת סייבר. לחילופין, לנסות לחזות מה האירוע הבא בסדרה, למשל הצפיות הבאות שלכם בנטפליקס, וקיימות עוד שיטות ויישומים רבים.

לכאורה, ניתן להשתמש בשיטות כאלו כדי לחזות את תוצאות הבחירות הקרבות. אבל כפי שנאמר בפוסט הראשון, רק לכאורה. במדינת ישראל המפלגות משנות את פניהן והנושא המרכזי שעליו נסובה מערכת הבחירות שונה בכל פעם, אפילו בסדרת הבחירות התכופה שנכפתה עלינו. וגם כשנדמה לנו ששלוש מערכות בחירות רצופות זה הרבה, אין בזה כדי לייצר בסיס אמין לחיזוי (ונקווה שלא נגיע למספר שמספיק).

אמחיש את הצורך בחומר אימון רב בדוגמה הבאה. גם מוזיקה היא סדרה עיתית, שכן כדי להלחין מוזיקה נעימה לאוזן יש כמובן תלות בין סדר התווים. גוגל פירסמה לאחרונה אלגוריתם (Music Transformer) שיודע להלחין בעצמו קטעי נגינה על פסנתר. מי שמתעניין מוזמן להתרשם מאיכות התוצאה, אחרי שגוגל השתמשה בכ-10 אלף שעות (!) של מוזיקה מסרטים כדי ללמד את האלגוריתם. ניתן גם להתרשם שם מלינק נוסף שמדגים תוצאות שהתקבלו לאחר אימון האלגוריתם עם הרבה פחות שעות מוזיקה. אני אמנם לא מוזיקאי, אבל לדעתי ההבדל באיכות מורגש.

ובחזרה לתחום הבחירות. בדומה לתווים במוזיקה, ניתן להתייחס גם למלים בטקסטים (נאומים למשל) כאל סדרה עתית. בספטמבר האחרון פורסם אלגוריתם בשם CTRL, שמייצר טקסטים חדשים בסגנון של הטקסטים שמלמדים אותו.

ברוח הפייק ניוז, השתמשה קבוצה מהאתר Lawsuit.org באלגוריתם הזה כדי ליצר את ה-RoboTrump, שממציא פסקאות מתוך נאומים לכאורה של הנשיא טראמפ. בניסוי שהם ערכו, הם ביקשו מאלף אנשים להחליט לגבי 20 קטעים האם הם יוצרו על ידי הרובוט, או נלקחו מתוך נאומים אמיתיים של הנשיא. בפועל, היו בניסוי 10 קטעים מכל סוג, ומסתבר שב-60% מהפעמים אנשים טעו בהחלטה האם מדובר בקטע אותנטי או מזויף.

החוקרים תוהים כיצד ניתן לשטות כל כך בקלות בכל כך הרבה אנשים. המסקנה שלהם שמדובר בשילוב של שני גורמים. מצד אחד, כנראה שאינטליגנציה מלאכותית הגיעה לרמה כל כך גבוהה של המצאת טקסט שנראה אמיתי. מצד שני, במקרה של הנשיא טראמפ לדעתם זה לא בעיה, מכיוון שסגנון הנאומים שלו הוא "בלתי מסודר" ו"מלא ג'יבריש", כהגדרתם. במלים אחרות, הם סבורים שיהיה קל יותר להבחין בין טקסט אמיתי למזויף אם יהיה מדובר בנואם "רהוט ומוכשר יותר", לדבריהם.

אם נחזור לרגע לדוגמא מעולם המוזיקה, הרי שאם נדרשו לרובוט 10 אלף שעות אימון כדי להלחין נגינה בפסנתר, לפי קו המחשבה הזה, כנראה יספיקו רק 2 דקות אימון ליצור ג'אז. הרי ממילא ג'אז נשמע מאולתר לחלוטין לאנשים רבים (ויסלחו לי חובבי הג'אז).

אם נחזור לשלולית הקטנה שלנו, כנראה שלא נדרש אלגוריתם מתוחכם במיוחד כדי לחזות את התגובות של המפלגות השונות לאירועים חדשותיים רבים, כמו גם לאמירות מפי אישים שונים, כמו מנהיגים פוליטיים או רבנים. לא פעם זה נשמע כאילו העתיקו את אותו הקטע מהאירוע הרלוונטי הקודם. מצד שני, אם נחזור לפתיחה שדנה בקושי לנבא תוצאות בחירות בישראל, מסתבר שלא כל כך קל לחזות אמירות שקשורות בהתפתחות של חקירות אודות חשד של מעורבות ראש ממשלה בפלילים.

האינטרנט מוצף באמירות הפוכות לגמרי של פוליטיקאים בהקשר הזה. לצערנו היו כבר כמה ראשי ממשלה חשודים, ופשוט תלוי על איזה ראש ממשלה מדובר. לא תתקשו למצוא גם בהקשרים אחרים אמירות והיפוכן של לא מעט פוליטיקאים ישראלים. לא בטוח שאינטליגנציה מלאכותית כבר הגיעה לרמה שנדרשת להבין את זה. ובמחשבה שנייה, גם מרבית בני האדם לא.

את הפוסט השני סיימתי בתקווה שיעברו כמה שנים לפני מערכת הבחירות הבאה. אמנם אני ממשיך לקוות, אבל כבעל ניסיון, אני גם נערך לפרקים הבאים בסדרה.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.

יעקב רימר

יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

בלוג זה הוא המשך לבלוג קודם של יעקב רימר ב-TheMarker. לטורים בבלוג הקודם לחצו כאן

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker