אלגוריתמים הוגנים: כיצד מלמדים בינה מלאכותית לפעול ללא הטיות?

אלגוריתמי זיהוי פנים הגיעו לרמה מתקדמת מאוד ומיושמים במוצרים רבים, מחקר אקדמי הראה כי אחוזי הדיוק שלהם בגברים לבנים גבוהים ב-40% מאחוזי הדיוק שלהם בנשים שחורות ■ זו דוגמה אחת מני רבות להטיה מובנית באלגוריתם שניתן לצפות אותה ולבטלה דרך שורות קוד

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
הקלדת קוד במחשב
תכנותצילום: PRImageFactory / Getty Images IL

בשנים האחרונות אלגוריתמים של בינה מלאכותית תופסים מקום ניכר בכל תחומי החיים שלנו - הם מסייעים לקבל החלטות בנוגע למתן הלוואות, קבלה לאוניברסיטה ואפילו שחרור אסירים. איך נדע אם ההחלטות האלו הוגנות? איך בכלל האלגוריתמים מקבלים את ההחלטות משנות החיים האלו?

לחצו על הנגן כדי להאזין לפרק

בפרק החדש של unsupervised ראיינו שתי חוקרות מבטיחות העוסקות בתחום ההוגנות בבינה מלאכותית משתי דיסיפלינות שונות:

ד"ר יפית לב-ארץ - מרצה למשפטים בבית הספר למנהל עסקים שלCity University of NY. מתמחה ב-tech policy, פרטיות ודיני מידע.  

גל יונה - סטודנטית לתואר שני במדעי המחשב במכון ויצמן שאחד מנושאי המחקר שלה הוא FAT - fairness, accountability and transparency. גל חוקרת את מידת ההוגנות של אלגוריתמי למידה, מנסה לבודד את ההטיות והאפליות, ומפתחת כלים מתמטים לשיפור ההוגנות של האלגוריתמים.

שאלות אתיות בנוגע למעורבות של אלגוריתמי למידה בחיינו עולות כמעט מיד כשחושבים על השתלבותם במערכות בריאות ואכיפת חוק, אך מסתבר שגם בתחומים מורכבים פחות חוסר מחשבה על השאלות האלו עלול להביא לתוצאות מביכות במקרה הטוב, ומקוממות בחוסר הצדק שלהן במקרה הרע. קחו לדוגמה אלגוריתמי זיהוי פנים - זו נחשבת בעיה יחסית פתורה במדעי המחשב וקיימים בשוק אלגוריתמים מצוינים שצודקים בקרוב ל-99% מהמקרים. אם אתה גבר לבן.

מחקר שנעשה בתחום באוניברסיטת סטנפורד הראה כי אחוזי הדיוק שלהם בגברים לבנים גבוהים ב-40% מאחוזי הדיוק שלהם בנשים שחורות. מודל כזה גורם לכך שנשים שחורות יעוכבו בבדיקות בטחוניות פי 3 יותר מגברים לבנים. אלגוריתמים כאלה גם מתקשים לעתים להבין פנים אסייתיות, כפי שחווה ריצ'רד לי - ניו זילנדי שניסה לשווא להעלות תמונה כדי לחדש דרכון, אך המערכת דחתה אותה שוב ושוב בטענה שעיניו עצומות.

אחת הסיבות העיקריות לכך היא העובדה שרוב המודלים נבנו על בסיס נתונים שאינם מייצגים באופן שווה את כל האוכלוסיות בחברה. לדוגמה, 80% דוגמות של אנשים לבנים, ורק 20% של אנשים ממוצאים שונים.

דרך פשוטה לתיקון ההטיות אם כך היא לדאוג לייצוג משמעותי יותר של אוכלוסיות מגוונות בבסיסי הנתונים המשמשים לאימון האלגוריתמים. המצב קצת יותר מורכב מסתבר - לא תמיד ניתן להשיג מספיק נתונים על אוכלוסיות מסוימות וגם כשהנתונים מגוונים מספיק צריך לבדוק האם המודל שנוצר באמת הוגן עם המידע הרחב יותר. לעתים יש איזון עדין בין הוגנות לבין דיוק של האלגוריתם והשאלה כיצד לשמור על האיזון הזה היא מורכבת.

שאלת ההוגנות הופכת כעת לשאלה חישובית הנכנסת לתוך האלגוריתם עצמו. בתוך תהליך האופטימיזציה שמייצר את המודל הסופי יש להכניס גורם ששם דגש על ההוגנות, וזאת בהתאם לסוג הבעיה וסוג ההוגנות שרוצים להשיג. לדוגמה, במקום לעשות אופטימיזציה כך שהמודל יהיה מדויק על כל האוכלוסיה, נעשה אופטימיזציה למודל עם אילוץ שעליו להיות מדויק אבסולוטית אך גם מדויק במידה דומה על אוכלוסיות שונות.

דוגמה נוספת לחוסר הוגנות אלגוריתמי היא הטיות ב-word embeddings .word הם ייצוג מתמטי של מילים שנגזר מהמשמעות הסמנטית שלהן בתוך משפטים ונלמד מתוך טקסטים בצורה לא מפוקחת (unsupervised). שיטת ייצוג זו היא הבסיס למרבית הכלים המשמשים לניתוח טקסט והבנת שפה בימינו. מחקרים הראו כי פתרון אנלוגיות בסיסיות באמצעות word embeddings מראה כי הייצוגים הללו לעתים קרובות מכילים הטיות שונות, ובפרט הטיות מגדריות. אם נשתמש בייצוגים הנפוצים כדי לענות על השאלה: גבר הוא למתכנת כמו אישה ל-...? התשובה שנקבל היא עקרת בית.

במקרה זה, ההטייה בייצוג נובעת ישירות מהטייה בנתונים. נראה שבטקסטים הגברים מופיעים לעתים קרובות כמתכנתים, בעוד הנשים מופיעות כעקרות בית לעתים קרובות יותר מאשר הן מופיעות כמתכנתות. הדבר מעלה שאלה מתבקשת - אם עולמנו מוטה, האם האלגוריתמים צריכים להנציח את ההטייה הזו או לתקן אותה?

שאלת ההוגנות הופכת כעת לשאלה חישובית הנכנסת לתוך האלגוריתם עצמוצילום: Denis Balibouse / REUTERS

כדי לדון בשאלת ההוגנות של אלגוריתמים כדאי להבין איך מגדירים הליך הוגן במשפט וכיצד, אם בכלל, ניתן ליישם את הגדרת ההליך ההוגן על קבלת החלטות אלגוריתמית.

ד"ר לב ארץ מצביעה על מספר בעיות מובנות בהוגנות אלגוריתמים מתוך הגדרת ההוגנות המשפטית. ראשית, הגדרת ההליך ההוגן תמיד יושמה על בסיס הפרדת הרשויות - מחוקקת, מבצעת ושופטת. בהחלטות של אלגוריתמים לעומת זאת, לרוב מדובר על שילוב בלתי ניתן להפרדה של פעולות הרשויות הללו. כמו כן, הזכות להליך הוגן לרוב מיוחסת לרשויות ציבוריות, אבל המציאות הטכנולוגית היום יצרה טשטוש תחומים - גופים פרטיים עם כוח רב, וגופים ציבוריים שמשתמשים בשירותים של גופים פרטיים דרך הסדרים חוזיים של רכישת תוכנות ומערכות אלגוריתמיות.

אחת הזכויות הנגזרות מהזכות להליך הוגן היא הזכות להסבר. מודלים של למידת מכונה הם פונקציות מורכבות של הנתונים, "קופסה שחורה" שמקבלת מידע ומחזירה תשובה. אפילו האלגוריתמאי שפיתח אותם לא תמיד יכול להסביר בקלות את הסיבות לתשובה מסוימת שהמודל החזיר. המחקר בתחום ה-explainability התפתח מאוד בשנים האחרונות אך עדיין מציג אתגרים רבים. עם זאת, מציינת יפית, יש לזכור כי גם חבר מושבעים או שופט בבית משפט אינו יכול להסביר בצורה מוחלטת את הסיבה להחלטה מסוימת. כדוגמה לכך היא מספרת על מחקר שמראה ששופטים נוטים לזכות מועמדים שהוצגו בפניהם לאחר ארוחת הצהריים מאשר לפני ארוחת הצהריים. גם האדם הוא סוג של קופסה שחורה שלא תמיד ניתן להסביר אותה בקלות.

זכות נוספת הנגזרת מהזכות להליך הוגן היא הזכות לשקיפות וביקורת ציבורית. מעבר לקושי הטכנולוגי להסביר מודלים מורכבים, עולה כאן עניין הסודות המסחריים. חברות רבות לא רוצות לחשוף את האלגוריתם שלהן או להסביר אותו לציבור. שיקול נוסף הוא שבעצם חשיפת האלגוריתמים לציבור אנשים יכולים לנסות להונות אותם על ידי הינדוס הנתונים וההתנהגות שלהם כדי לייצר את התשובה הרצויה מהאלגוריתם.

שמעו עוד בפרק על דרכים להפוך את הבינה המלאכותית להוגנת יותר וכיצד מערכת המשפט מתמודדת עם נושא זה.

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker