נטפליקס יודעת מה תעשו בקיץ הקרוב: על הצד האפל של החיזוי

נטפליקס, כמו גם חברות אחרות, מסוגלת לחזות מה נרצה לעשות. יש תועלת ליכולת לחזות את המהלכים הבאים שלנו, אבל בידיים הלא נכונות, המידע עלול להזיק לנו מאוד

יעקב רימר
יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
נטפליקס
נטפליקסצילום: AFP

בסוף שנות ה-90 יצא לאקרנים סרט האימה "אני יודע מה עשית בקיץ האחרון", אודות קבוצת צעירים שנרדפת על מעשה מעברם. בשנים האחרונות כולנו חיים במציאות שבה חברות שונות לא רק יודעות מה עשינו בעבר, אלא גם מה אנחנו עתידים לעשות. האם אנו חיים בסרט אימה?

חברת נטפליקס מתגאה ביכולת שלה להתאים את התכנים שלה לטעמו של כל צופה. מרבית האנשים אוהבים ז'אנרים מסוימים. למשל, אם כרגע סיימת בינג' של כל דורות "מסע בן כוכבים", כנראה שכדאי להמליץ לך על "מסע בין כוכבים: דיסקברי". המלצה שפחות סבירה עבורך אם צפית לאחרונה ב"סקס והעיר הגדולה". מה לעשות, למרות שמדובר בהכללה, יש חלוקה ברורה בין מעריצי מיסטר ביג, למעריצי מר (לוטננט-קומנדר) דאטה.

איך יודעים? אפשרות אחת היא לבנות פרופיל דמוגרפי של כל הצופים בסדרה מסוימת. לדוגמה, אם הנתונים מראים כי מרבית הצופים בסדרה הן נערות בנות 17-13 שגרות ביישובים מבוססים, כדאי להציע אותה לנערה בת 16 שגרה בכפר-סבא. אפשרות אחרת היא להתמקד בכל צופה וללמוד את התכנים בהם צפה עד כה. אם רובם בז'אנר מסוים, ניתן לשייך אותו לקבוצת ייחוס של חובבי הז'אנר ולהציע לו תכני ז'אנר נוספים, או תכנים אחרים שפופולריים בקבוצת הייחוס הזו. ויש עוד אפשרות, להתמקד בכל הצופים בחתך מסוים, למשל ילדים בגילי 8-6, וללמוד מה הם אוהבים לראות. את התכנים האהובים הבולטים כדאי להציע לילדים נוספים בשכבת הגיל הזו.

התחום של חיזוי אירועים בעתיד מכונה Predictive Analytics. הטכניקות המובילות בחיזוי הן שיטות למידת מכונה מונחית (Supervised Machine Learning), בדגש על שיטות הסיווג השונות. הרעיון הבסיסי הוא לימוד מדוגמאות אמיתיות שהתוצאה עבורן ידועה. למשל, נבחר אנשים שצפו ב"משחקי הכס", נלמד את המאפיינים שלהם, וננסה לבנות מודל שיבדיל בין אנשים שירצו לצפות ב"משחקי הכס", לאלו שכנראה לא.

נשות סקס והעיר הגדולה מתוך הסרט הראשון
מתוך "סקס והעיר הגדולה". יש חלוקה ברורה בין מעריצי מיסטר ביג, למעריצי מר (לוטננט-קומנדר) דאטהצילום: AP

ניתן עקרונית להשתמש גם בשיטות אחרות שסקרתי בפוסטים קודמים, כגון אישכול, גילוי אנומליות ואחרות. הכול תלוי במטרה של הניתוח. למשל, בשיטת האישכול נשתמש כדי לפלח את הצופים לקבוצות עם טעם ייחודי, שלא חשבנו עליו קודם. אולי לקבוצות צופים שמעדיפים תכנים שצולמו בשנה מסוימת, או בהשתתפות שחקנית מסוימת, בלי קשר לז'אנר של הסרט.

ניתוח הרגלי צפייה דומה לניתוח העדפות טיסה, שאותו הדגמתי בפוסט שעסק באלגוריתמים התנהגותיים (Behavioral Analytics). ואכן, נטפליקס אוספת נתונים התנהגותיים נוספים, כגון שעות הצפייה, משך הצפייה, דירוגים של התכנים ותיוגים שונים על סרטים, שחקנים ועוד.

המטרה המוצהרת היא להקל עלינו למצוא את התכנים שמועדפים עלינו, וכמובן לסייע לנטפליקס לייצר תכנים שקולעים לטעם הקהל שלה. צופים רבים מוצאים את זה שימושי ונוח, בעוד אחרים מתאכזבים או חושבים שההמלצות מטרידות. דעות מגוונות ניתן למצוא לגבי כל שירות, אבל יש גם צד אפל.

נטפליקס יכולה להשתמש בנתונים שהיא אוספת לצרכים נוספים. היא יכולה להשתמש בנתוני צפייה ומיקום גישה כדי לזהות שימוש אסור בסיסמאות המנוי. למשל, על ידי זיהוי של צפייה במקביל ממקומות שונים, או שינוי פתאומי בפרופיל הצפייה של המנוי. עד כאן הכל בסדר, מאבק בשימוש פסול הוא זכותה של החברה. אבל נתוני צפייה עלולים לשמש לדברים נוספים.

לדוגמה, נניח שבפרופיל צפיות של "גבר רווק בודד", הופיעו פתאום צפיות שמאופיינות כ"תכנים רגשניים". כאמור, אולי מדובר בשימוש כפול בסיסמה. אבל אולי גם דרך לזהות שלרווק יש חברה חדשה ולהציע לו מוצרי צריכה מתאימים. אפשר לחשוב באופן דומה על זיהוי של צפיית "שברון לב" ולזהות פרידות כואבות.

חושבים שזה דמיוני? בפוסט אודות אובדן הפרטיות תיארתי מחקר שהראה כיצד ניתן ללמוד על נטיות פוליטיות או העדפות מיניות של צופים, אפילו כשהם נמנעו מלהסגיר זאת בפומבי. החוקרים השתמשו בנתונים של דירוגי סרטים אנונימיים שנטפליקס פרסמה לצורך תחרות. עכשיו תארו מה ניתן לכאורה לעשות בסיוע עובדי החברה (חלילה), או באמצעות גניבת הנתונים המלאים מתוך השרתים שלה?

נטפליקס כמובן לא לבד. כל חברות התכנים והתקשורת מפעילות אלגוריתמים דומים. חברות קמעוניות רבות יודעות על הרגלי הצריכה שלנו באמצעות כרטיסי המועדון. חברות שיווק מלונות יודעות היכן אנחנו אוהבים לנפוש. ועוד לא אמרנו מלה על גוגל, אפל או פייסבוק. אז האם אנחנו חיים בסרט אימה? קשה לקבוע. מצד אחד יש תועלת ויתרונות רבים ליכולת לחזות את המהלכים הבאים שלנו. מצד שני, המידע עלול להזיק לנו בידיים הלא נכונות, כלומר בידי חברות בעייתיות או משטרים דורסניים.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.

יעקב רימר

יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

בלוג זה הוא המשך לבלוג קודם של יעקב רימר ב-TheMarker. לטורים בבלוג הקודם לחצו כאן

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker