איך נטפליקס יודעים מה הסדרה הבאה שתאהבו - והאם בזכות מהפכת המידע תימצא תרופה לסרטן?

ד"ר אורי שליט מהמרכז לחישוביות עצבית באונ' העברית, ובעל פוסט דוקטורט מ-NYU בתחום למידת מכונה, מספר על האתגרים העומדים בפני היישום של machine learning בענף הרפואה - וביניהם הרצון לזהות מהו הקשר הסיבתי בין ארועים שונים, כמו נטילת תרופה מסוימת והחמרה או שיפור במצב רפואי

שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
מעבר לטוקבקים
נטפליקס
צילום: צילום מסך

מהפכת המידע לא פסחה על תחום הרפואה והבריאות. בשנים האחרונות בתי חולים, קופות החולים וחברות הביטוח אוספות מידע דיגיטלי על החולים והמבוטחים ועולה השאלה איך אפשר להשתמש במידע הזה כדי לשפר את הטיפול בחולים וגם את היעילות הכלכלית של חברות הביטוח ובתי החולים.

What do Data Scientists do in the Army? with Sefi Cohen

0:00
-- : --

בפרק השלישי של הפודקאסט דיברנו עם אורי שליט, מרצה בכיר בטכניון, בעל דוקטורט מהמרכז לחישוביות עצבית באוניברסיטה העברית ופוסט דוקטורט מ-NYU. במהלך הפרק ניסינו להבין איך מיישמים machine learning בתחום של Health care ואיך מתגברים על האתגרים בתחום.

סוגי הבעיות בתחום ה-Health care הוא מגוון ורחב ונע החל מדיאגנוזות, ניתוח בדיקות מעבדה, זיהוי אנומליות בצילומי רנטגן ועד הערכת סיכונים, ניתוח מדדים שונים לאורך זמן והתאמת טיפול לחולים.

אחת הבעיות המעניינות בכל מחקר, ובמיוחד בתחום הבריאות, היא זיהוי קשרים סיבתיים. כלומר - מה גרם לתוצאה מסוימת. לדוגמה, כאשר בודקים יעילות טיפול חדש לחולי סרטן במצב סופני, יכולה להתקבל תוצאה שהחולים שקיבלו את הטיפול דווקא נטו למות יותר בהשוואה לחולים שלא קיבלו את הטיפול. האם במצב כזה נוכל להסיק שהתרופה מחמירה את מצב החולים? כנראה שלא. סביר יותר שהחולים שקיבלו את הטיפול היו במצב קשה יותר מאלה שלא קיבלו אותו ולכן שיעור התמותה שלהם היה גבוה יותר.

דרך אחת להתמודד עם הבעיה היא להגדיר את אוכלוסיית המדגם בצורה נכונה, תוך התחשבות בכל הגורמים שיכולים להשפיע על התוצאה (הישרדות החולה). לדוגמא, לבנות מדגם כך שקבוצת האנשים שקיבלו את הטיפול תהיה דומה בחומרת מצבה לקבוצת האנשים שלא קיבלו את הטיפול.

דרך נוספת היא לתקן את ההטיה ידנית על ידי נתינת משקלים שונים לאנשים שונים לפי חומרת מצבם וסיכוים לקבל את התרופה.

הבעיה הזו אינה ייחודית לתחום הרפואה. היא יכולה להיווצר בכל סיטואציה בה נרצה להבין מהם הגורמים לתוצאה מסוימת, או במונחים סטטיסטיים - מהו הקשר הסיבתי (causal inference). הטיה דומה ניתן למצוא כאשר מנסים לבנות מודל המלצות על סרטים, כמו לדוגמה בנטפליקס. במקרה זה, המדגם סובל מהטיה מובנית בגלל שיש לנו מידע רק על הסרטים שאנשים בחרו לדרג ואין לנו כל ידע על סרטים שאנשים לא דרגו. ניסינו להבין עם אורי איך בעיות אלו באות לידי ביטוי בתחומים שונים של machine learning וכיצד ניתן לתקן אותן.

לבסוף, אורי סיפר לנו על מחקר שעשה במהלך הדוקטורט בו השתמש בשיטות חישוביות כדי לזהות השפעות מוזיקליות של אמנים.

תגיות:

Unsupervised

שיר מאיר לדור וענבר נאור | Unsupervised

Unsupervised הוא פודקאסט שסוקר את תעשיית הדאטה סיינס הישראלית. הוא נוצר כדי ללמוד מה נעשה בחברות שונות ובאקדמיה, להיחשף לשיטות עבודה מגוונות, להכיר את האנשים בתחום ולשמוע מאילו רקעים הגיעו, באילו כלים הם משתמשים ומה האתגרים שהם מנסים לפתור. בכל פרק נראיין חוקר מהתעשייה או מהאקדמיה שיספק לנו זווית ייחודית לעולם הדאטה סיינס מנקודת המבט שלו. מתוך שילוב הסיפורים השונים אנחנו מקוות לקבל תמונה עדכנית על התעשייה כולה.

הפודקאסט מיועד לאנשים שעוסקים בתחום מדע הנתונים, למתחילים בתחום או מתעניינים בתחום, וכן לאנשים שמשתפים פעולה בעבודתם עם מדעני נתונים.

שיר מאיר לדור היא דאטה סיינטיסט ב-Intuit, מובילה עולמית בפיתוח תוכנות לניהול פיננסי לעסקים קטנים ולקוחות פרטים. עבודתה מבוססת על פיתוח אלגוריתמים ומודלים של משין לרנינג עבור מוצרי ניהול פיננסי, risk, fraud ו-security. בעבר היא עבדה כדאטה סיינטיסט ב-Bluevine וחוקרת ומפתחת אלגוריתמים בטקדו. בנוסף היא מהמייסדים והמארגנים של PyData Tel aviv meetups, נותנת הרצאות בכנסים שונים ומיטאפים של data science ו-machine learning ויש לה תואר שני בהנדסת חשמל ומחשבים עם התמחות ב-machine learning ועיבוד אותות מאוניברסיטת בן-גוריון.

ענבר נאור היא דאטה סיינסטיסט בטאבולה, שם היא מפתחת המלצות תוכן באמצעות טכניקות למידה עמוקה. בעבר היא עבדה כדאטה סיינסטיסט ב-wisdo, כמפתחת במיקרוסופט וכמפתחת אלגוריתמי ראייה ממוחשבת. יש לה תואר שני במדעי המחשב, שבו פיתחה אלגוריתמי machine learning ליישומים רפואיים ולמחקר גנטי, ותואר ראשון במדעי המחשב וקוגניציה. בנוסף היא אחת המייסדים של DataHack, האקתון ה-Data Science הגדול בישראל, ושל סדרת המיטאפים DataTalks ונותנת הרצאות על נושאים שונים ב-machine learning.

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker