מיסטר ביג ומר דאטה

אם התעניינת בשרשרת, בטח תרצי גם את העגילים: על בניית "סלי קנייה"

למידת חוקי הקשר שימושית במספר מקרים - אבל גם כאשר חוקי הקשר מתאימים מאוד, כמו בתהליכי קנייה, יש כמה אתגרים לתוצאות טובות

בפוסטים קודמים הצגתי בקצרה שתי שיטות ללמידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ו-Clustering (אישכול). הפעם אעסוק בשיטת למידה בלתי-מונחית נוספת הנקראת Association Rules Learning ובעברית למידת חוקי הקשר (אסוציאציות). המוטיבציה הבסיסית של השיטה היא למצוא אירועים שבדרך כלל מתרחשים ביחד. למה זה טוב?

יש לכך מספר שימושים, המוכר ביותר מגיע מעולם המכירות. מי שקונה באינטרנט, נתקל כנראה יותר מפעם אחת במשפט "אנשים שקנו את X קנו גם Y". כלומר, האתר מציע לך מוצרים נוספים שעשויים לעניין אותך על סמך המוצר שבחרת. איך הוא עושה את זה? בכל פעם שאנחנו קונים, בחנות אמיתית או וירטואלית, אנחנו ממלאים את הסל במוצרים ומשלמים עליהם בקופה. המוכר יכול להשתמש במידע של תכולת הסלים כדי ללמוד אילו מוצרים נרכשים בדרך כלל יחד. למשל, הרבה אנשים שקונים דיו למדפסת קונים גם נייר למדפסת. לכן כדאי להציע למי שקונה דיו לקנות גם נייר. נשמע הגיוני לא?

בלומברג
להמשך הפוסט

שואפים לעבוד כמומחי ביג-דאטה? זה מה שמצופה מכם לדעת

מה מאפיין מומחה ביג-דאטה, מה מצופה ממנו לדעת ובמה כדאי לו לחשוד

בפוסטים קודמים עסקתי בטכניקות שונות של עולם הביג-דאטה ובניסיון להמחיש מה אפשר ואי אפשר להשיג באמצעותן. לרגל הפוסט ה-25 (בכל זאת חצי יובל), אקדיש אותו לאנשים. כלומר, לשאלה מה מאפיין מומחה ביג-דאטה ומה מצופה ממנו או ממנה לדעת.

ובכן, בראש ובראשונה הוא צריך לאהוב נתונים. בעוד מרבית בני האנוש נרתעים מנתונים כמו מאש, הוא דווקא נמשך אליהם כפרפר לאש. בכל פעם שמאגר נתונים מענין יקרה בדרכו, למשל תוצאות הבחירות האחרונות, הוא ישמח לנתח אותו ולהפיק תובנות. למי שמעוניין בדוגמות לתובנות משעשעות שניתן להסיק מנתונים משעממים, מומלץ לקרוא את סדרת הספרים המצוינת פריקונומיקס (שגם כתובה מצוין). למשל, איך ניתוח ספרי מכירות של סוחרי סמים מלמד מדוע רובם גרים עם אמא שלהם.

נשים עובדות יחד
Getty Images IL
להמשך הפוסט

50 גוונים של סיווג: אתגרים שראוי לקחת אותם בחשבון לפני שמפתחים מודל נתונים

יש אתגרים שונים בדרך לסיווג מוצלח ■ והפעם, אתגרים בשונות של מרחב הבעיה ובחפיפה בין קבוצות הסיווג

בפוסטים קודמים עסקתי מספר פעמים בשיטת הסיווג, אחת מהטכניקות החשובות ביותר בלמידה וביג-דאטה. נזכיר שהמטרה בסיווג היא לחלק עצמים לקבוצות שהוגדרו מראש, באמצעות דוגמות שנאספו לכל קבוצה. הצגתי מספר אתגרים בדרך לסיווג מוצלח, וזאת לאור מטרות הבלוג – לתת לקורא תחושה טובה יותר לגבי מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות. מכיוון שבמהלך הקריירה שלי אני נפגש בעוד ועוד מודלי סיווג בעייתיים, אנסה להצביע על אתגרים נוספים שראוי לקחת אותם בחשבון לפני שיוצאים לדרך.

נזכיר את האתגרים לסיווג מוצלח שכבר עסקתי בהם: ראשית, מומלץ לשקול האם הבעיה שלכם אכן מתאימה לטכניקת הסיווג. במידה וכן, נדרש להכין מראש דוגמות רבות ולנקוט משנה זהירות במהלך הבחירה של הדוגמות. מומלץ מאוד גם לבחור באופן נבון את המאפיינים (התכונות) לסיווג. נעסוק הפעם בעוד שני אתגרים הנוגעים למרחב הבעיה איתה אתם מתמודדים: מידת השונות של העצמים אותם אתם מעוניינים לסווג, ומידת החפיפה בין קבוצות הסיווג.

.
להמשך הפוסט

ביג דאטה לשלטון: האם ניתן לחזות את תוצאות הבחירות?

שיטות ביג דאטה מתקשות מאוד בחיזוי תוצאות של אירועים ייחודים כדוגמת בחירות ■ בעבר היו מעלים באוב או קוראים בקפה ■ היום יש סקרים ומומחים פוליטיים

בתקופת בחירות סוערת זו, עתירת מפצים, פילוגים, מיזוגים ומפלגות גוססות, אני נשאל האם ניתן לחזות את תוצאות הבחירות בשיטות של ביג-דאטה. התשובה במילה אחת היא לא. בשתי מילים – ממש לא. אבל רגע, איך זה שכל יום מתפרסמים עוד ועוד סקרים שמתיימרים לעשות בדיוק את זה?

לכאורה, חיזוי בחירות הינו בעיה מתאימה לתחום הביג-דאטה. יש נתונים רבים של תוצאות אמת ממערכות בחירות קודמות. אפשר לאסוף הרבה נתונים חדשים באמצעות סקרים או איסוף אוטומטי וניתוח טרנדים ברשתות חברתיות וגם בשילוב של ניתוח טקסטים. כלומר, אין שום קושי לאסוף מאגר של ביג-דאטה. ומכאן לכאורה קצרה הדרך לנסות ולהזין את כל הנתונים האלו לשיטות שונות של למידה או סטטיסטיקה ולחזות את תוצאות מערכת הבחירות. לצערנו יש כאלו שעושים את זה. הם מקבלים "תוצאות" ורצים לספר לחברה בתקשורת, מבלי להבין (במקרה הטוב) שמדובר בתוצאות חסרות בסיס.

Getty Images IL
להמשך הפוסט

כוחו של הרגל: יצירת פרופילים מתוך הקשר של זמן ומקום

דע מאין באת ולאן אתה הולך – כיצד עובדים אלגוריתמים התנהגותיים מבוססי מקום?

שילוב של נתונים ממדים שונים, למשל זמן ומקום, מעשיר את ההבנה שלנו. בפוסט הקודם הבאתי דוגמות נוספות לשימושים באלגוריתמים התנהגותיים (אוBehavioral Analytics). כל הדוגמות עד כה עסקו בתובנות מניתוח של נתוני אירועים בזמן, אבל לאירועים שונים יש מאפיין חשוב נוסף – מקום.

ב-2015 פירסם העיתונאי האוסטרלי וויל אוקנדן (Will Ockenden) את הנתונים של שיחות הטלפון שלו, אותם קיבל מחברת הסלולר. לא מדובר בתוכן השיחות, אלא במטה-דאטה שלהן. אלו נתונים שמתארים מתי הוא שוחח, עם מי, ובאיזו אנטנה סלולרית נקלטה השיחה (איכון). כלומר, כל שיחה התרחשה לא רק בזמן מסוים, אלא גם במקום שמזוהה על סמך האנטנה בה השיחה נקלטה. וויל פרסם את נתוניו כחלק מדיון פומבי לגבי פרטיות האזרח (או יותר נכון, אובדנה). עבורנו זאת הזדמנות ללמוד על היכולת לנתח התנהגות של אדם במרחב ולא רק בזמן.

מפה, טיול
rawpixel on Unsplash
להמשך הפוסט

כמה זמן שהיתם באתר TheMarker ואיך זה קשור לגיל שלכם?

כל אתר אינטרנט שמכבד את עצמו יכול לאסוף נתונים לגבי התנועה בו (זמן שהות, לחיצה על קישורים ועוד) ■ הצלבת הנתונים האלו עם מאפייני הגולשים יכולה לשפר את השיווק, בייחוד כשמדובר באתר קניות, ולייעל את ניהול המשאבים

יש שימושים שונים לאלגוריתמים התנהגותיים, לדוגמא באתרי מכירות או בהגנת סייבר. בפוסט הקודם התחלתי לעסוק באלגוריתמים התנהגותיים (או Behavioral Analytics) והסברתי שמדובר בניתוח של נתוני אירועים בזמן. הדגמתי ניתוח של נתוני טיסות, וציינתי שיש לאלגוריתמים התנהגותיים הרבה שימושים. אחד היישומים הפופולריים כיום באלגוריתמים התנהגותיים הוא ניתוח דפוסי התנהגות של גולשים באתרי אינטרנט. אמחיש זאת.

נניח שיש לך אתר אינטרנט ואת מוכרת בו מוצרים מעשה ידייך. פרסמת את האתר במקומות הנכונים, וגולשים וגולשות מגיעים אליו בהמוניהם. אבל אף אחד לא קונה. למה? תמיד קיימת האפשרות שהמוצרים לא קורצים מספיק לקונים, ואולי יקרים מדי. אבל מצד שני, כשאת מוכרת אותם בירידים הם נמכרים מצוין. אז איך ניתן להסביר מה קורה?

צילום מסך של אתר TheMarker
להמשך הפוסט

נא להתנהג בהתאם: על אלגוריתמים התנהגותיים

אלגוריתמים התנהגותיים הוא מונח שיווקי לניתוח של נתוני אירועים ■ מהם נתונים דינמיים לעומת נתונים סטטיים?

בפוסט הפותח של בלוג זה עסקתי בנושא של אלגוריתמים לגילוי אנומליות. ציינתי בסופו שבהקשר של ניתוח הרגלים אנושיים הם יכונו לעיתים גם אלגוריתמים התנהגותיים (או Behavioral Analytics). בשנים האחרות זהו באזז-וורד חזק בעולמות שונים, לטעמי יותר בפן השיווקי. אסביר.

אפשר לחלק באופן גס את הנתונים בעולם הביג-דאטה לשתי קבוצות: סטטיים ודינמיים. בנתונים סטטיים הכוונה בדרך כלל לנתונים שמאפיינים (או מתארים) ישות מסוימת ועונים על השאלה "מי היא". אם מדובר באדם אז הכוונה למשל לשמו, גילו, שנת לידתו, מספר תעודת הזהות שלו וכדומה. בעולם הסייבר נתאר קובץ במחשב לפי הסוג שלו, שמו, אורכו ומאפיינים אחרים שנוכל למצוא עליו. לעומת זאת נתונים דינמיים בדרך כלל מאפיינים אירועים שהתרחשו בנקודת זמן מסוימת וקשורים לישויות האלו. הם עונים למשל על השאלה "מה הם עושים".

בית "האח הגדול"
עמית גירון
להמשך הפוסט

ביג דאטה בשירות הנאצים: השימוש האפל במאגרי מידע

שיטות עיבוד נתונים וביג-דאטה עלולים לשרת גם את האיומים שבמעשים ■ לציון יום הקדיש הכללי לנרצחי השואה שחל השבוע - פוסט אישי על יישומים של מתודות לעיבוד וניהול נתונים ששירתו את הנאצים ואיפשרו להם לייעל את מכונת ההשמדה

פוסט זה נכתב לציון יום הקדיש הכללי לנרצחי השואה שחל השבוע. הפוסט שונה מהאחרים ובנימה אישית. בפוסט קודם כבר עסקתי באחד הצדדים האפלים של עולם הביג-דאטה – אובדן הפרטיות. אך כנראה שהשימוש הנורא מכל שנעשה בעיבוד נתונים ממוכן הינו מערכות הנתונים של הנאצים בתקופת השואה. 

התוודעתי לנושא בעקבות מחקר אישי שערכתי אודות קורותיו של אבי זלמן רימר ז"ל כנער בשואה. הוא עבר מספר מחנות החל מאביב 1944 ועד לשחרור מחנה טֶרֶזְיֶינְשְטָט באביב 1945. להפתעתי, גיליתי כי ניתן לאתר תיעוד אישי ממחנות הנאצים וכעת בידי כ-15 מסמכים מארבעה מחנות שונים. התיעוד המרגש ביותר הוא כרטיס האסיר האישי של אבי ממחנה בוכנוואלד שמכיל את תמונתו בעת הגיעו למחנה (תמונה 1). אין מילים שמסוגלות לתאר את ההתרגשות שחוויתי כשקיבלתי לידי את המסמך הזה.

תמונה 1: כרטיס האסיר של אבי זלמן רימר ז"ל מבוכנוואלד
להמשך הפוסט

אמור לי מי הם חבריך ואומר לך מי אתה

ניתוח רשתות חברתיות יכול לשמש ליישומים שונים ■ למרות שניתוח קשרים הוא כלי חזק ומועיל, בדרך כלל נדרש גם מידע משלים

כפי שציינתי בפוסט הקודם, אחד התחומים הפופולריים בניתוח קשרים (Link Analysis) הוא ניתוח רשתות חברתיות (Social Network Analysis). למשל, כל מי שחבר ברשת חברתית כלשהיא יודע כי הרשת מציעה לו כל הזמן חברים חדשים.

כיצד היא עושה את זה? יש שיטות שונות למצוא קשרים "חסרים", כלומר להעריך מי עוד עשוי להיות חבר שלך. להלן שתי דוגמות פשוטות. נניח שלנועה יש 6 חברים, אחד מהם הוא יוסי. ליוסי יש 7 חברים. אחת מהם היא כאמור נועה, ועוד 6 אחרים, שמתוכם 5 הם בדיוק אותם החברים של נועה (תמונה 1). במקרה כזה יש סבירות גבוהה שגם נטע, החברה הנוספת של יוסי, מכירה את נועה ולכן כדאי להציע אותה לנועה.

אני והחבר'ה
יח"צ
להמשך הפוסט

הֲיֵלְכוּ שְׁנַיִם יַחְדָּו בִּלְתִּי אִם נוֹעָדוּ – על ניתוח קשרים

ניתוח קשרים הוא אחד התחומים המרתקים בעולם הביג-דאטה

עמוס הנביא שואל "הֲיֵלְכוּ שְׁנַיִם יַחְדָּו בִּלְתִּי אִם נוֹעָדוּ". אם ראינו שני אנשים שהולכים יחדיו, סביר יותר שהם קבעו להיפגש, מאשר שהם נפגשו באקראי. כלומר, יש ביניהם קשר. על ההיגיון הפשוט הזה מבוססת היכולת שלנו לחקור פשעים חמורים. נניח שנמצאה גופת אישה שנרצחה (לא עלינו). קיימת אפשרות שמדובר ברוצח מזדמן, אולם ניסיון העבר מלמד שיש סבירות גבוהה יותר שמדובר ברוצח מ"המעגל הראשון" של המכרים שלה. במקרים רבים לצערנו קרוב משפחה מדרגה ראשונה כמו בן-זוג, אח או בן.

מה הקשר של כל זה לביג-דאטה? שאלה מצוינת. זאת דוגמה מזעזעת מעט אך פשוטה לניתוח קשרים (Link Analysis), אחד התחומים המרתקים בעולם הביג-דאטה. כאשר מדובר בניתוח של קשרים בין אנשים, בייחוד בעידן הרשתות החברתיות, מקובל לכנות זאת גם ניתוח רשתות חברתיות (Social Network Analysis). יש לתחום זה יישומים רבים, החל ממחקר פשעים, סיכול טרור וכדומה, ועד לתחום השיווק והפרסום הוויראלי.

"טיטאניק"
/אי־פי
להמשך הפוסט

המקל והגזר של למידת מכונה באמצעות חיזוקים

בשנים האחרונות יש הרבה באזז סביב "למידה באמצעות חיזוקים" ■ עד כמה היא אכן רלוונטית לבעיות הלמידה שלכם?

אומרים שכל יום לומדים משהו חדש. האם זה נכון גם ללמידת מכונה? תלוי בגישה. הקדשתי מספר פוסטים בבלוג להסבר של "למידה מונחית" (Supervised Learning) מתוך דוגמות שהתוצאה עבורן ידועה. בגישה הזו, לא נלמד שום דבר חדש כל עוד לא נאסוף דוגמות חדשות. אבל יש גם גישה אחרת שנקראת "למידה באמצעות חיזוקים" (Reinforcement Learning). בגישה הזו, המכונה לומדת באופן רציף באמצעות ניסוי וטעיה על פי משוב (פידבק) שמתקבל מה"עולם".

הדוגמה הקלאסית היא רובוט (למשל שואב רובוטי) שלומד כיצד לנוע בתוך דירה. לרובוט יש חיישנים שמדווחים לו מתי הוא מתקרב או מתנגש במכשול. אין צורך לתת לו הוראות מראש והוא גם יודע להסתגל לסביבה משתנה כמו הזזה של רהיטים בחדר. מהדוגמה הזו אפשר להבין שכדי שנוכל להשתמש בלמידה מתוך חיזוקים צריכים להתקיים שני תנאים חשובים: ראשית, צריכה להיות לנו יכולת לקבל משוב האם החלטה מסוימת היא טובה יותר מהחלטה אחרת. בדוגמה של הרובוט, להעדיף להתקדם למקום פנוי ולא למקום חסום. שנית, נדרשת יכולת לתרגם את המשוב שקיבלנו לפעולה שנרצה לבצע כדי לקדם אותנו למטרה שלנו. למשל, במידה והרובוט נתקל במכשול, הוא ינסה לפנות לכיוון פנוי או לחזור על עקביו.

גד גניר
להמשך הפוסט

עברית שפה קשה

יש ערך רב בניתוח של טקסטים מסוגים שונים ■ יש יישומים שימושיים רבים לניתוח טקסט. צריך רק לוודא שהם מתאימים לשפה שמופיעה בטקסטים שלכם

בפוסט הקודם ציינתי דוגמה אחת ליישום של ניתוח טקסטים לטובת "זיהוי מחבר" (authorship identification). קיימים עוד שימושים רבים מאוד לניתוח טקסטים. בפוסט הזה אזכיר עוד כמה דוגמות ליישומים, מכיוון שכזכור מטרת הבלוג לנסות להמחיש לקוראים ולקוראות מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע.

בפוסט בו עסקתי בשיטת האשכול ציינתי כי חלוקה של טקסטים לקבוצות מאפשרת לקבל תובנות חדשות מעצם החלוקה. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אשכול על המילים שבתשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. חלוקה באמצעות אשכול תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

תשבץ היגיון מס' 1666
להמשך הפוסט

מי כתב את התורה?

מסתבר שלא תמיד חייבים להבין את משמעות הדברים כדי לקבל תוצאות. גישות שונות בלמידת מכונה לניתוח טקסטים - על קצה המזלג

מי כתב את התורה? אלוהים יודע. את כל השאר אפשר לבדוק. מסתבר שקיימת "טביעת אצבע" אופיינית לסגנון הכתיבה של אדם, המאפשרת לזהות טקסטים שנכתבו על ידו ברמת ודאות מסוימת. זהו תחום מחקר הנקרא "זיהוי מחבר" (authorship identification) והוא מבוצע בשיטות למידת מכונה שונות לניתוח תוכן הטקסט. נבהיר שהניתוח אינו תלוי כלל בכתב ידו של המחבר, אלא רק בתוכן של הטקסט, גם כאשר הטקסט מודפס.

האם באמת אפשר להבדיל בין כתבים של אנשים שונים? בהחלט כן. לכל אדם יש סגנון, מילים וצירופים בהם הוא משתמש יותר או פחות מאחרים. הדוגמה המועדפת עליי היא סלידתו של דוד בן-גוריון ממילת היחס "את". למשל, אם הוא במקרה השאיל לכם את אחד מהספרים שלו, לא היה אומר לכם "אני מבקש את הספר בחזרה", אלא "אני מבקש הספר בחזרה". מכיוון ש"את" היא מילה נפוצה (מופיעה כאן 24 פעמים מתוך 659 מילים), היעדרה הוא סימן זיהוי מצוין לכתבי בן-גוריון. את פשוטי העם, ביחוד את אלו שאינם סולדים או מנסים להילחם במילים שונות, מעט יותר קשה לזהות. אבל כאמור אפשרי.

ספר תורה בשפה האמהרית
להמשך הפוסט

בין אפס לאחד: האם המחשב יכול למצוא לנו את הזיווג המושלם?

כמו כל שיטת למידה אחרת, למידה עמוקה אינה מתכון קסמים לכל דבר ■ על רשתות נוירונים, למידה עמוקה ומה שביניהן – חלק ב'

בפוסט הקודם הסברתי על רגל אחת מהי "למידה עמוקה" (Deep Learning). מדובר בקאמבק מרשים של רשתות הנוירונים המלאכותיות שכיכבו בסוף המילניום הקודם. ציינתי שיש יתרון משמעותי בשימוש בפרמטרים רבים בלמידה עמוקה, אבל זה מאריך מאוד את משך הלמידה של הרשת. הפוסט הסתיים באמירה שצריך לתת את הקרדיט לקאמבק של רשתות הנוירונים לשיפור המשמעותי בטכנולוגית המחשוב, אבל לא רק.

יש עוד מהפכה דרמטית שהתרחשה בין שנות ה-80 להיום – האינטרנט. אני מזכיר שוב שכדי ללמוד מתוך דוגמות, צריך דוגמות רלוונטית, והרבה. אם חוקר בשנות ה-80 רצה לבנות רשת נוירונים שתדע ללמוד להבדיל בין תמונות של כלבים לחתולים, הוא היה צריך לצלם תמונות בעצמו או לאסוף תמונות מתוך ספרים. היום צריך רק להקליד כמה מילים בגוגל. כולם הרי יודעים שרשת האינטרנט נוצרה בעיקר כדי לשתף תמונות וסרטים של חתולים. וברצינות, ניתן להשיג כיום מאגרי דוגמות בתחומים רבים ומגוונים, חלקם באיכות גבוהה מאוד, שאפילו לא ניתן היה לחלום עליהם לפני כ-40 שנה.

תמונת נישואין 2
Getty Images IL
להמשך הפוסט

מה שיותר עמוק יותר חכם?

כל מי שלא אמר ביג-דאטה, בינה מלאכותית ולמידה עמוקה, לא יצא ידי חובה ■ על רשתות נוירונים, למידה עמוקה ומה שביניהן – חלק א'

בפוסט קודם ציינתי שיש שיטות ביג-דאטה שמסוגלות ללמוד ולזהות לבד מאפיינים (או תכונות) שיעזרו ללמידה, גם כשאדם מתקשה למצוא אותן. כלומר, לבחור בעצמן את התכונות שאנו מגדירים עבור כל פריט בנתונים שלנו. שיטה כזו היא למשל "מלכת הכיתה החדשה שנקראת "למידה עמוקה" (Deep Learning).

למידה עמוקה גורמת היום להתרגשות רבה בקרב אנשי ביג-דאטה ובצדק. התוצאות שלה במספר תחומים מצוינות ומהוות פריצת דרך משמעותית. למשל בתחומים הקשורים לראיה ממוחשבת או זיהוי תמונות. יישום מלהיב ומוצלח אחר הוא הניצחון של המכונה את האלופים האנושיים במשחק גו. אחרי תבוסת האדם למכונה במשחק השחמט בסוף המילניום שעבר, המשחק גו היה נחשב לפסגת האינטליגנציה האנושית, שלנצח תעמוד בפני הבינה המלאכותית (Artificial Intelligence). ב-2016 הופתענו (או זועזענו, תלוי את מי שואלים) לגלות שמכונה מצוידת בלמידה עמוקה מביסה בקלות את האדם גם במשחק גו. עולה כמובן השאלה האם אנחנו לקראת השתלטות המכונות על האנושות. שאלה מעניינת, אבל לא לבלוג הזה.

גטי אימג'ס
להמשך הפוסט

שביל הזהב - שילוב אדם ומכונה

למידת מכונה היא מונח קסם לכל מי שרוצה לשווק מערכת "חדשנית". האם היא תמיד עדיפה על הידע האנושי? מותר המכונה על האדם – חלק ב'

בפוסט הקודם התחלתי לעסוק באחת המחלוקות הקשות בעולם הביג-דאטה: האם למידת מכונה עדיפה על מערכות חוקים?

נזכיר כי מערכת חוקים, או מערכת מומחה, מורכבת מאוסף של כללים וחוקי היסק שאמורים לקבל החלטות בדומה למומחה אנושי. אולם קשה לבנות מערכות כאלו וציינתי שהתוצאה לעיתים קרובות היא מערכת מסורבלת שקשה מאוד לכוונן אותה. בהקשר הזה יש ללמידת מכונה יתרון. עבור אדם שאינו מיומן, קל הרבה יותר לאסוף דוגמות ולתת למכונה "ללמוד לבד", מאשר לתחזק מערכת חוקים מסורבלת. אבל כפי שכתבתי בפוסט הקודם, לפעמים איסוף הדוגמות הוא ענין לא פשוט עד בלתי אפשרי. במקרים כאלו בעייתי להפעיל שיטות של למידת מכונה.

רובוטית דמוית אדם בסרט "אקס מכינה". החוקרים מקווים לפתח רובוט שמתאים רגש לסיטואציה
ללא קרדיט
להמשך הפוסט

אם רופאה משתמשת באינטואיציה כדי לטפל בחולה - כיצד המחשב יידע להחליף אותה?

האם למידת מכונה עדיפה על מערכות חוקים? האם כדאי ללמוד את מה שכבר ידוע? ■ אם במקרים רבים רופאים מתקשים להסביר כיצד הם מקבלים החלטה לגבי אבחון חולה, מה בעצם אנחנו מצפים ממערכת המומחה האומללה? ■ מותר המכונה על האדם - חלק א'

בפוסט הזה אתחיל לסקור את אחת המחלוקות הקשות בתחום: האם למידת מכונה עדיפה על מערכות חוקים. דרכה אנסה להסביר יתרונות וחסרונות נוספים של שיטות שונות בעולם הביג-דאטה. על למידת מכונה כתבתי מספר פעמים, כאשר הכוונה בעיקר לשיטות הסיווג השונות.

אם כן, מהן מערכות חוקים? אחת הטכנולוגיות המובילות בשנות ה-80 של המאה הקודמת נקראה מערכת מומחה. מדובר בתהליכים שמורכבים מאוסף כללים וחוקי היסק, שאמורים לקבל החלטות בדומה למומחה אנושי, למשל רופא. החשיבה בזמנו הייתה שניתן ללמד את המערכת את כל מה שרופא יודע (או צריך לדעת) כדי לאבחן מחלות. לדוגמא, אם אדם מגיע עם תלונות על כאב גרון וחום, התבונן לו בגרון ובצע לו משטח גרון. אם משטח הגרון נותן תוצאות חיוביות (כלומר, יש דלקת שנגרמת ע"י חיידק) - רשום לו אנטיביוטיקה. אחרת, שלח אותו לדרכו עם המלצה למנוחה ולחפיסת סוכריות מציצה (גילוי נאות: אני לא רופא). היו שטענו שמדובר בטכנולוגיה מבטיחה שתחליף תוך מספר שנים את הרופאים, בדומה לרובוטים שהחליפו פועלי יצור. ובכן, אני מניח שמי שביקר לאחרונה בקופת חולים לא ממש הופתע למצוא שם עדיין רופאים ורופאות, גם כעבור 40 שנה.

להמשך הפוסט

ההבדל בין מומחי ביג דאטה לחובבנים

היכולת להגדיר תכונות שימושיות (הנדסת תכונות, Feature Engineering) היא התכונה המבדילה באמת בין אנשי ביג דאטה חובבנים למקצוענים

לפני שאמשיך לעסוק בשיטות נוספות בביג-דאטה, אתמקד הפעם באחד המפתחות להצלחה בשיטות ביג דאטה רבות – בחירה נבונה של מאפיינים (תכונות) ומטריקה. מדובר בתכונות שאנו מגדירים עבור כל פריט בנתונים שלנו, ועבור כל תכונה, את האופן שבו נמדוד דמיון בין פריטים (בעגה המקצועית – פונקציית מרחק, או מטריקה). ציינתי בנושא האשכול כי החלוקות שיתקבלו עבור העצמים שהדגמתי תלויות בתכונות שבחרנו לחלק על פיהן, למשל צבע, צורה, וכו'.

כשתיארתי את שיטת הסיווג המחשתי כי בחירה של תכונות אינה תמיד משימה קלה. למשל, אין לנו מושג באמצעות אלו תכונות אנו מבדילים בין תמונות של כלבים וחתולים. בפוסט העוקב ציינתי את הכלל "כל המרבה הרי זה משובח", כי לפעמים קשה לקבוע מראש אלו מאפיינים יהיו משמעותיים. זה הזמן להסביר מדוע.

להמשך הפוסט

אני יודע מה חיפשת בקיץ האחרון

המוצר זה אני – על אובדן הפרטיות בעידן הביג-דאטה

עד כה עסקתי בשיטות בעולם הביג-דאטה. הפעם אעסוק בנתונים עצמם (כלומר, בדאטה) ובשאלה האם עוד קיימת פרטיות בעולמנו (רמז: לא!).

אניח כי שמעתם על שערוריית פייסבוק האחרונה והעדות "הדרמטית" של צוקרברג. אז נפתח ב"סקופ" אדיר. אני לא חושב שיש מישהו שעוסק בביג-דאטה שהופתע מהפרשה הזו. כבר שנים רבות ידוע כי פייסבוק עושה שימוש בנתונים הפרטיים של משתמשיה וגם מוכרת אותם, בדרך זו או אחרת, לכל דכפין (בעל ממון כמובן) בעיקר לטובת פרסום. זה נכון עבור רוב השירותים שאנו מקבלים בחינם באינטרנט, כי כידוע אין ארוחות חינם. החברות האלו צריכות להתפרנס ממשהו, והמוצר שהם מוכרים הוא נתוני הלקוחות שלהם.

הפגנה נגד פייסבוק
Aaron Bernstein/רויטרס
להמשך הפוסט

על שלושה דברים המודל עומד - כמות, איכות ושכיחות

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה לתוצאות מסוימות ■ בפוסט זה, נסביר כיצד מודדים איכות של מודלים בעולם הביג-דאטה

בפוסט הקודם השארתי ב"אוויר" את האמירה שמודל לאיתור טרוריסטים יטעה בתדירות גבוהה, עד שלא נוכל להשתמש בו. ציינתי שכדי להסביר זאת צריך להבין קודם כיצד מודדים איכות של מודלים בעולם הביג-דאטה. הבטחתי להסביר, והבטחות - יש לקיים.

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה בעקבות תהליך הלמידה לתוצאות מסוימות. זאת מכיוון שבשיטות של למידה בלתי-מונחית כדוגמת אישכול או גילוי אנומליות ניתן אמנם לקבוע האם הפעלת השיטה הועילה, אבל התוצאה בעיקרון סובייקטיבית.

יד נוגעת בהולוגרמה של גרפים
Dreamstime
להמשך הפוסט