האמת הפשוטה על מדע הנתונים שאנשים מתקשים להבין

נתונים הם צורך הכרחי למחקר ויישומי אינטליגנציה מלאכותית. לכן אין מנוס מלמצוא פתרונות למתח שקיים בין הצורך בנתונים לבין שאלות חוקיות או אתיות שונות

יעקב רימר
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
כיכרות לחם
כיכרות לחם. חייבים קמח, וחייבים נתוניםצילום: אלון רון

כשעוסקים במדע נתונים, אם אין נתונים, אין מדע. בדיוק כמו שלא ניתן לאפות לחם בלי קמח. מפתיע עד כמה אנשים מתקשים לפעמים להבין את האמת הפשוטה הזו. הטור הזה עוסק בחשיבות של נתונים לצורך מחקרי אינטליגנציה מלאכותית ונכתב בעקבות דברים שהצגתי בדיון שהתקיים באוניברסיטת תל אביב בסוגיית האיזון במשטר נתונים לישראל. כלומר, כיצד מאזנים בין הרצון לקדם מחקר ויישומים של אינטליגנציה מלאכותית בישראל, אל מול שאלות של פרטיות וזכויות אזרח בחברה דמוקרטית. לא אעסוק כאן בסוגיה הרחבה, אלא אתמקד בשאלת החשיבות של הנתונים שבה פתחתי.

אקדים את ההסבר המפורט ואדגיש שוב כי נתונים הם צורך הכרחי למחקר ויישומי אינטליגנציה מלאכותית. פעמים רבות יש קושי להשיג או לאסוף נתונים לצורך מחקר או פרויקט מסוים. יש לכך סיבות מגוונות. לפעמים פשוט אין מספיק נתונים (או שאיכותם ירודה), ואז צריך ליזום פעולות כדי לאסוף אותם ממקורות שונים, או לייצר אותם לבד. אבל גם כאשר הנתונים קיימים, אין זה אומר שניתן להשתמש בהם. אם בשל סייגים שנובעים משמירה על פרטיות של אנשים (למשל נתונים רפואיים), או שאלות של סודיות עסקית של חברות וכיוצא בזה. ומכאן נובע המתח בין הצורך בנתונים, לבין שאלות חוקיות או אתיות שונות.

ניתן לחלק את הדיון בצורך בנתונים לשני שלבים. תהליך הלמידה, או בניית המודל (והמערכת) ותהליך ההפעלה השוטף של המערכת. ניתן לכאורה לייצר מערכות חוקים (מערכות מומחה) בלי נתונים. זאת מכיוון שאפשר לכתוב חוקים שמבוססים על ידע וניסיון קיים של מומחים. אבל בלי נתונים אי אפשר לבדוק את נכונות החוקים וכתוצאה מכך אי אפשר לשפר אותם. ומכיוון שמערכות חוקים נוטות ממילא להיות מאתגרות לתחזוקה, ללא נתונים שמשמשים למדידה וכיוונון הן מאבדות רלוונטיות מהר מאוד.

בתחום למידת המכונה, כל שיטות הלמידה המונחית מבוססות על איסוף של נתונים, הבנה ותיוג שלהם. זאת לעומת שיטות למידה בלתי-מונחית, למשל זיהוי אנומליות, שאינן מחייבות להבין ולתייג את הנתונים ועקב כך מאפשרות שמירת פרטיות (כי אין הכרח שאנשים יחשפו לנתונים). אבל גם למידה זו בלתי אפשרית ללא הגישה של המכונה לנתונים. לעתים ניתן להשתמש בשלבי הלמידה והאימון בנתונים סינתטיים, או בנתונים שעברו מראש תהליכים מיוחדים לצורך שמירה על פרטיות או הסתרת מידע מסווג. הניסיון מלמד שזה עלול לפגוע בביצועי המודל או המערכת, אבל לפחות מאפשר להתחיל את התהליך.

בשלב ההפעלה השוטף של המערכת הצורך בנתונים אמיתיים גובר. אם המודל או המערכת לא עובדים טוב, נדרש לאבחן מדוע. בדרך כלל לא ניתן להבין את הבעיה ולנסות לפתור אותה, מבלי לנתח נתוני אמת של המערכת. בדיוק כמו שיהיה קשה לאבחן מחלה של אדם חולה רק על סמך ספרי רפואה, מבלי לבדוק את החולה עצמו. יתרה מכך, במערכות רבות המטרה היא להצביע על תוצאות שדורשות המשך טיפול. למשל מערכת שמטרתה להתריע על ממצא מחשיד לטובת הגנת סייבר. במקרה כזה, שוב נדרשת יכולת לבחינה אנושית של התוצאות וביצוע חקירה. כלומר, לחזור ולבחון נתוני אמת של המערכת.

הבעיה מחריפה עוד יותר כשעוסקים בנתונים דינמיים, או בסביבות מתפתחות שדורשות התאמות שוטפות. נתונים דינמיים מאפיינים אירועים שהתרחשו בנקודת זמן מסוימת. במקרים רבים אופי הנתונים הללו משתנה לאורך זמן. למשל, אופי הצפיות בסדרות טלוויזיה משתנה, מכיוון שהטעם של הצופים אינו קבוע. כתוצאה מכך מודל למידת מכונה שאומן בעבר עלול ליהפך ללא-רלוונטי לאחר תקופה מסוימת.

המשמעות היא שאם הושקע מאמץ לבניית מאגר נתונים ייחודי לטובת שלבי הקמת המערכת, המאגר אינו מתאים עוד. בסביבות מתפתחות המצב מורכב עוד יותר. לדוגמה, איתור קבצים עוינים (וירוסים) בעולם הסייבר דורש הקמת מאגר של וירוסים לצורכי אימון מערכות ההגנה. אבל קצב התפתחות מרוץ החימוש בין התוקף למגן בסייבר (אבולוציית וירוסי המחשב) הוא מהיר מאוד. מאגר וירוסים שנבנה לפני כשנה כבר לא יהיה מספיק רלוונטי, למרות שלא מדובר במאגר של נתונים דינמיים.

לסיכום, נתונים נדרשים לצורך תהליך בניית המערכת, למידה ובחינת השערות. נתונים נדרשים גם לצורך כיוונון המערכת בזמן הפעלתה. בתחומים שונים נתונים נדרשים גם לצורך יישום נכון של מטרת המערכת, כגון חקירת תוצאות. אם לפעמים ניתן להקים מאגר סינתטי או ייעודי, יש מקרים שבהם מאמץ חד-פעמי להקמת מאגר אינו עומד במבחן הזמן. לכן אין מנוס אלא לקדם פתרונות שיאפשרו עיסוק שוטף בנתונים, בין אם מדובר בפתרונות טכנולוגיים (שחלקם כבר קיימים כיום), או בפתרונות של חקיקה או אסדרה.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.

יעקב רימר

יעקב רימר | מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

בלוג זה הוא המשך לבלוג קודם של יעקב רימר ב-TheMarker. לטורים בבלוג הקודם לחצו כאן

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker