מדע וחדשנות

אנחנו יודעים איפה הייתם בליל הסדר

איסוף מידע דיגיטלי על אדם אחד הוא פגיעה חמורה בפרטיות. שימוש במידע כזה שנאסף ממיליוני אנשים, באופן אנונימי, הוא העתיד

ערן דינר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקיםכתוב תגובה

ההיסטריה החלה באמצע השנה שעברה, עם הגילויים הראשונים מהמסמכים שהדליף אדוארד סנודן על המעקבים שביצעה הסוכנות האמריקאית לביטחון לאומי (NSA) באמצעות כלים שכולנו משתמשים בהם מדי יום, בהם גוגל ופייסבוק. אם תמיד ידענו שאפשר לבלוש אחרינו ברשת, מסמכי סנודן הוכיחו שאכן, האח הגדול בהחלט עלול לפשפש בתיבת המייל שלנו, במסרונים ואיפה לא.

העניין הוא, שהאח הגדול לא באמת צריך לקרוא על החוויות שלנו מהנופש באילת כדי לדעת איפה היינו ומה עשינו. גם אם נצפין את כל תכתובות המייל ונכתוב סמסים בשפת הבי"ת, עדיין ניתן יהיה להפיק אודותינו מידע רב רק מתוך השובל הדיגיטלי שמותירות אחריהן שלל הפעולות היומיומיות שאנחנו מבצעים, כמו תשלומים בכרטיסי אשראי, שימוש בכספומטים, שליחה וקבלה של שיחות ומסרונים; וכמובן עצם נשיאת הטלפון הסלולרי, שמשדר ללא הרף נתונים על מיקומנו.

מידע כזה, הנאסף מהמוני משתמשים על פני זמן, עשוי להיות בעל ערך גדול במיוחד למגוון שימושים. במחלקה להנדסת תעשייה וניהול באוניברסיטת תל אביב פיתח צוות חוקרים בראשותו של פרופ' עירד בן־גל אלגוריתמים שמאפשרים להפיק ממנו תובנות שימושיות עבור גופים ממשלתיים ומסחריים.

"אנחנו משאירים אחרינו חותם דיגיטלי בכל מקום כל הזמן", אומר בן־גל. "לא מדובר רק במחשבים או בסמארטפונים. בכל מקום שבו אתה הולך בעיר גדולה יש מצלמות, כלומר, גם כשאתה לא משתמש במחשב או בטלפון שלך אתה חשוף. כדי להילחם בסכנת הפגיעה בפרטיות צריך להחליט מתי מקריבים את הפרטיות למען צרכים מוצדקים, למשל, כדי לקבל שירות טוב יותר או הגנה טובה יותר. מקום אחד שבו אתה מקריב במידה מסוימת את הפרטיות הוא כשאתה מבצע ניתוח אנליטי של הרבה אנשים יחד".

על בסיס האלגוריתמים שפותחו באוניברסיטה הקימו ב־2007 בן־גל ושותפו, ד"ר גונן זינגר, את הסטארט אפ B4־C, שפיתח תוכנה לזיהוי וניתוח דפוסי נתונים נסתרים במאגרי מידע גדולים, במטרה לתרגמם למידע עסקי עבור חברות קמעונות, חברות טלקום וארגוני ביטחון פנים. המידע שמשמש את בן גל וצוותו הוא אינדיבידואלי, אבל לא בהכרח פרסונלי - כלומר, הוא נאסף מאנשים אמיתיים, אך אינו מזהה אותם בשמותיהם ולא מכיל מידע אודות תוכן המסרונים או השיחות שלהם בטלפון הנייד.

נתונים אודות מיקומו של משתמש בטלפון סלולרי על פני שבועות אחדים. עמודות=ימים שורות = שעות היממה

"באחד מהפרויקטים המחקריים שלנו, ששותפים בו ד"ר ערן טוך ופרופ' בועז לרנר וקבוצת סטודנטים לתארים מתקדמים, אנחנו מקבלים מחברה סלולרית גדולה נתוני מיקום ותזוזה של המוני משתמשים באזורים גדולים, שמהם ניתן להפיק תובנות על התנהגות ותבניות תזוזה של אנשים", מספר בן־גל. "למשל, קיימים נתונים של כל המשתמשים בתל אביב על פני כמה חודשים. כמובן שאין מידע מיהם האנשים. כל מה שאנחנו מקבלים הוא נקודות שבהן אנשים היו וזזו ברחבי העיר. אנחנו בונים על פי המידע הזה מודלים של התנהגות: מהן תבניות התזוזה המאפיינות את האנשים האלה בעיר במשך שעות היום והלילה. אחר כך אפשר להעלות על המודלים האלה כל מיני שכבות גיאוגרפיות. למשל, אם מישהו נמצא במקום מסוים בצהריים, חשוב לדעת אם זה מקום של מסחר, עבודה או אולי פארק".

מה אפשר ללמוד מהנתונים האלה?

"אפשר להבין, למשל, אם אדם עובד במקום קבוע או נע ממקום למקום כמו סוכן מכירות, או אם הוא יוצא לאכול, יוצא לפארק או הולך למשרדים אחרים, ואפשר לדעת היכן הוא גר, קונה ומבלה. עד רמה מסוימת, אפשר לדעת אפילו מהי הדרגה של אותו עובד בחברה. יש מחקרים שמראים איך המוביליות משתנה כשעובד עולה בדרגה בחברה. אם היית יודע את שמו של אותו משתמש, היית נכנס לשאלות של פרטיות, אבל יש הרבה יישומים שאינם כרוכים בחדירה לפרטיות, כמו יישומים של אופטימיזציה של תחבורה, קאר פולינג ואפילו תמחור שונה למסלולים בכביש על פי עומס צפוי. אם יש בידיך מיליון יומנים כאלה של אנשים שונים, היכולת לנהל את זה ביעילות עולה מאוד.

"מידע כזה עשוי לשמש גם את רשויות המדינה. במבצע עמוד ענן אספנו מידע שמראה איך עיר מתנהגת בזמן התרעת צבע אדום. אינפורמציה כזאת יכולה להיות חשובה לפיקוד העורף, ולשמש אותו כדי לדעת, למשל, איך למקם בצורה אידיאלית מקלטים או מחסות. יש גם מידע שישמש גופים מסחריים. נניח שיש אנשים שידוע שבצהריים הם תמיד פנויים או שהם עובדים בדרך כלל מחוץ לעיר, אבל בימים מסוימים הם שוהים בתוך העיר. על בסיס המידע הזה אפשר להציע להם שירותים שונים, החל בשירותי תשתית כמו סמארט סיטיז וכלה בקופונים, נניח, שמבוססים על הלייף סטייל המסוים הזה".

עירד בן גל צילום: ניר קידר

זה בדיוק המקום שבו אנשים חשים מאוימים מיישומים כאלה. אתה מיד חושב "איך הם יודעים מה אני צריך בדיוק עכשיו?".

"מצד אחד זו יכולה להיות חדירה איומה לפרטיות, ומצד אחר אפשר לחשוב על הרבה יישומים שמאפשרים להשתמש במידע כזה בלי להגיע לאדם עצמו. הנה דוגמה אחרת שנוגעת לשאלת הפרטיות: עבדנו עם חברה שעוסקת בתחום הביטחון על נתונים סלולריים של משתמשים וקיבלנו מהם מידע על מורשעים בפלילים (לא בישראל). די בקלות אפשר היה לסמן מאפיינים שמתארים את ההתנהגות של אנשים חשודים, ללא כל מידע על התוכן של השיחות או המסרונים שלהם, אלא רק על השעות ומשך ההתקשרויות. פרופיל השימוש התקשורתי שלהם שונה מאוד. בדרך כלל הם משתמשים ביותר ממכשיר אחד, שעות העבודה שלהם אחרות, השיחות שלהם קצרות ושעות הפעילות הן בלילה. הם גם משתמשים הרבה יותר במסרונים. עוד משהו שעלה בצורה מאוד מובהקת הוא היחס בין דקות השיחה למסרונים. בזמן נסיעה למשל, אנשים 'רגילים' מדברים הרבה יותר משהם שולחים מסרונים. אצל החשודים, זה לא בהכרח כך.

"פה נכנסת השאלה של חדירה לפרטיות כדי להגן על האוכלוסייה. אצל 99% מהאוכלוסייה לא רואים תבניות מובהקות כאלה, ולגבי האחוז הבודד שאצלו נמצאות תבניות מחשידות, אפשר לבקש צו מבית משפט, מכיוון שאולי במקרה כזה החדירה לפרטיות מוצדקת".

לאן עוד עשוי התחום הזה להתפתח?

"תחום האנליטיקה של כמויות גדולות של מידע (ביג דאטה) ללא ספק ילווה אותנו בשנים הקרובות. על פי נתונים של גרטנר, זה תחום שכמעט 78% מהחברות מעוניינות להיכנס אליו, ורק 8% מהן כבר שם. אגב, השנה נפתחה אצלנו במחלקה תוכנית התמחות חדשה לסטודנטים לתארים מתקדמים, שתעסוק ביישומים של אנליטיקה עסקית בהיבט של תהליכים ארגוניים ובשותפות עם חברות מובילות.

"כדי לדבר על הכיוון שאליו המדע הזה הולך, צריך להבין איך הוא התפתח. עשר שנים עבדו רק על איך לאגור ולארגן את מאגרי הנתונים כך שיהיו מוכנים לשליפה. אחר כך הגיעו מערכות הבינה העסקית (BI), אבל הן היו טובות כדי לתת תשובות לשאלות שאתה רוצה לשאול: אם אני חושב שלקוחות שלי בשנות ה־20 לחייהם שמתגוררים במקום מסוים לא משתמשים במוצר A, אני יכול לאמת או להפריך את ההשערה הזאת באמצעות מערכת בינה עסקית. אבל כדי לגלות תבניות שימוש לא מוכרות זה לא מספיק. עכשיו מגיע השלב של החיזוי האנליטי (Predictive Analytics), שבו המערכות שואלות בשבילך את השאלות. אתה שואל שאלות גדולות כמו 'מיהו לקוח טוב' או 'איך מגנים על הרשת', והן מוצאות עבורך את השאלות הפרטניות.

"הדור הבא, שחלקו כבר קיים, לא רק שואל את השאלות אלא גם מציג המלצות יישומיות. בשביל זה צריך להבין עוד משהו: מהם הגורמים שאתה שולט בהם בארגון. למשל, אני יכול לדעת שלקוח מסוים במקום מסוים קונה מוצר אם יורד גשם, אבל אני לא יכול להמליץ שיירד גשם. אם מסתכלים על הטרנד הזה, רואים שיותר ויותר מההמלצות האלה גם ימומשו אוטומטית. גם כאן הסיפור יהיה לאזן בין הפרטיות לבין אנליטיקה, שתהיה פרטנית עד לרמה מבהילה. ואז השאלה היא מה אנחנו נעשה. אולי נלך לים". 

הכתבה מתפרסמת בגיליון אפריל של מגזין TheMarker

למנוי למגזין, חייגו: 5200*

.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker