בלוג זירת ההייטק

תקציר מנהלות ד' - התנהלות בין אישית בראיון

איך תגיעו למצב בו המראיין מעריך שהוא ישמח לאכול איתכם צהריים כל יום? בתקציר הנ"ל נפרט את הגורמים בעלי ההשפעה על תוצאת הראיון ואיך ניתן להתכונן אליו בצורה המיטבית

שוב שלום, וברוכות הבאות לתקציר המנהלות התקופתי שלנו. תקצירי המנהלות הן הזדמנות טובה לחזור קצת על החומר לקוראות הוותיקות של הבלוג. הפעם נחזור על החומר משלושת הפוסטים בנושא התנהלות בין אישית בראיון. חדשה בבלוג ולא בטוחה מה קורה פה? כדאי להתחיל מההתחלה.

למה בכלל ההתנהגות הבין אישית בראיון משנה? כי אנשים הם חיות חברתיות שפיתחו במשך שנים אינסטינקטים של תקשורת לא ורבאלית, וכמו שההתנהגות האנושית הזו באה לידי ביטוי בכל סיטואציה אחרת בחיים, היא תבוא לידי ביטוי גם פה (ובגדול).

נשים בענף היי טק
אבישג שאר-ישוב
להמשך הפוסט

הגורם האנושי

גליה בכר ומעיין רפואה מספרות על מיזם משאבי אנוש, פיתוח במיקור חוץ וקבלת החלטות בצוות

החיבור בין גליה בכר ומעין רפואה החל בחברת מטומי, שם גליה עבדה שנים רבות כסמנכ"לית משאבי אנוש, קלטה את מעיין כעובדת צעירה וליוותה אותה בהתקדמות המקצועית שלה עד לתפקיד מנהלת מחלקת המדיה.

מנטש החלה להתגלגל ב-2016 כאשר חגי שוורץ, יזם ומשקיע היושב בארה"ב, פנה לגליה עם הרעיון ליצור מערכת לניהול משאבי אנוש. גליה התלהבה מהרעיון כי ידעה מניסיונה שאין פיתרון מספיק טוב לתחום המתאים לארגונים קטנים ובינוניים, שם רוב העבודה עדיין מתנהלת ידנית באמצעות גיליונות אלקטרוניים, וזאת למרות שלרוב 70-80 אחוז מהוצאות החברה הן על כוח האדם. חגי השקיע את הסיד וב-2017 החברה, כשגליה בראשה כמנכ"לית, יצאה לדרך.

גליה בכר, מעיין רפואה
אסנת רום
להמשך הפוסט

על שלושה דברים המודל עומד - כמות, איכות ושכיחות

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה לתוצאות מסוימות ■ בפוסט זה, נסביר כיצד מודדים איכות של מודלים בעולם הביג-דאטה

בפוסט הקודם השארתי ב"אוויר" את האמירה שמודל לאיתור טרוריסטים יטעה בתדירות גבוהה, עד שלא נוכל להשתמש בו. ציינתי שכדי להסביר זאת צריך להבין קודם כיצד מודדים איכות של מודלים בעולם הביג-דאטה. הבטחתי להסביר, והבטחות - יש לקיים.

מדידה של איכות רלוונטית לשיטות של למידה מונחית (Supervised learning), בהן יש ציפייה בעקבות תהליך הלמידה לתוצאות מסוימות. זאת מכיוון שבשיטות של למידה בלתי-מונחית כדוגמת אישכול או גילוי אנומליות ניתן אמנם לקבוע האם הפעלת השיטה הועילה, אבל התוצאה בעיקרון סובייקטיבית.

יד נוגעת בהולוגרמה של גרפים
Dreamstime
להמשך הפוסט

איך מפיקים תובנות מתנועת הספינות בים - ומהי השיטה היעילה לניהול פרויקט דאטא סיינס?

יאיר מזור, ראש תחום הדאטא סיינס בווינדוורד, מספר על הקריירה שלו בתחום מדע הנתונים, כיצד הוא ניגש לבעיה אותה צריך לפתור, מאילו תפקידים מורכב צוות מדעני נתונים ואיך נבנה תהליך העבודה

עבודתו של מדען נתונים משלבת כישורים בתחומים כמו סטטיטיקה ולמידת מכונה; כישורי תכנות; ומומחיות בתחום הרלוונטי (domain knowledge) - יכולת להבין את הבעיה העסקית ולבנות פתרון בהתאם.

מדעני נתונים רבים מתמקצעים בשיטות מסוימות ועוברים במהלך הקריירה בין חברות המתמחות בתחומים שונים. המעברים האלה מצריכים מהם להיכנס בכל פעם לעולם בעיות חדש, להבין את האילוצים העסקיים בו, מה מאפיין את המידע בו ולהשתמש בידע הזה כדי לפתור בעיות.

משט ספינות מסורתי ביום החג של אוסטרליה, ב-2011
אי־אף־פי
להמשך הפוסט

המוזיקה של המילים – מה גורם למסרים מסוימים לחלחל עמוק יותר?

כשהמוח מתייג משהו ששמענו כמוזיקה, אז רק לאחר מכן נחפש הגיון במסר – וכאן רבים מאיתנו נופלים באמונה עיוורת שכבר לא טורחת בבדיקת עובדות וזוכרים את אותו המסר ליותר זמן ■ קיימים מספר כלים שיכולים לשמש אתכם בכתיבת הפיץ' שלכם ולהפוך אותו למוזיקלי יותר - אבל זכרו שבסופו של יום, זה הנואם שעושה את הטריק

לרבים מאיתנו קל יותר לזכור מילים, כשהן משויכות למקצב או מנגינה כלשהי. זו הסיבה לכך שאנחנו מתקשים ללמוד פסקה או שתיים בעל פה לפני נאום חשוב, אבל אין לרובנו בעיה לזכור בעל פה את המילים לשיר כלשהו שהיה להיט בשנות ה-90, כל עוד נשמע את הלחן בסביבה (כן, אני מסתכל עליכם, אלו שיגבירו את הרדיו ברכב גם היום אם ינגנו את "אינפורמר" או את "gangsta's paradise", וישירו את כל המילים – בתים ופזמון). זו גם הסיבה לכך שתרפיה באמצעות מוזיקה היא כלי משמעותי וחשוב בעבודה עם אנשים שאיבדו את יכולת הדיבור בעקבות שבץ או פגיעה אחרת.

בצד הרפואי, הדבר נובע מכך שמרכז הדיבור נמצא בצד השמאלי של מוחנו, ומוזיקה נמצאת בשני צידי המוח, וכך מצליחה לחבר ביניהם. אבל אני לא חוקר מוח, ולא לשם כך הגעתם לקרוא את הטור הזה היום. אז אשתדל להימנע מכתיבת סמינריון ולהתרכז במה שאנחנו יכולים לקחת מההבנה הזו – ובעיקר, איך היא יכולה לשפר משמעותית את יכולתנו ליצור מסרים באופן שיהיה זכיר ומשכנע הרבה יותר.

פסנתר
Jocelyn Baker | Dreamstime.com
להמשך הפוסט

אבטחה מביכה

הפאדיחות הכי גדולות של ענקיות כמו אפל ומיקרוסופט בתחום אבטחת המידע מעלות חששות רציניים אודות העובדה שמחדלים כאלו מתרחשים בחברות כל כך גדולות שבידיהן כמויות עצומות של מידע אישי ויקר ערך כמו כרטיסי אשראי, תמונות וכו'

יש רגעים שבמקום לבכות או לנהל את המשבר, אתה פשוט מתחיל לצחוק. זה קורה לכולם. וזה בעיקר קורה כאשר זה לא אתה ששבר את הוואזה בבית של החבר, כשזה לא אתה שעשה drop בטעות למסד הנתונים בפרודקשן או זה שהעלה את כל הקוד של המוצר לריפוזיטורי פתוח בגיט-האב.

העניין הוא, שלטעויות, קטנות ומצחיקות ככל שיהיו, יש מחיר כבד כאשר הטעויות הן קשורות בצורה כזו או אחרת לאבטחה של נתונים או מערכות. ובכל זאת, אחרי שהתעשתנו, הבאנו מטאטא ואספנו את כל הרסיסים של הוואזה או שחזרנו את מסד הנתונים, אפשר וצריך לשבת להרהר, לתחקר וקצת לצחוק כל עוד כולם יצאו בריאים מהאירוע הטראומתי. זה תהליך בריא שמאפשר לנו (או לפחות לי באופן אישי) להתמודד עם הטראומה וללמוד ממנה. האמת היא, שמאירועים טראומתיים שיצאנו מהם בשלום ואפילו עם חיוך אנחנו לומדים אפילו יותר. לכן, עם שלל התובנות לעיל החלטתי לקבץ מספר אירועים מהתקופה האחרונה הקשורים באבטחת מידע, שניתן לומר שהיו טראומתיים ואתם תחליטו אם הם מעלים על שפתותיכם צחוק, חיוך קל או גיחוך גיקי.

בור שנפער בשכונת מגורים בלוס אנג'לס,  אתמול
MARK RALSTON/אי־אף־פי
להמשך הפוסט

תואר ראשון בגיל 14, גיוס הון ממייסד צ'ק פוינט ומנכ"ל מיקרוסופט ישראל לשעבר - הכירו את הסטארט-אפיסטית לירון ברק

לירון ברק סיימה תואר ראשון במחשבים בגיל 14, היתה בשירות קבע ב-8200 וגייסה 3.5 מיליון דולר (חלק ממריוס נכט) עבור סטארט-אפ שמפתח אנטי וירוס שמתריע על מתקפות לפני התרחשותן ■ בפרק זה, היא חולקת מהניסיון שלה על אקסלרטור, גיוס מרשות החדשנות, ניהול עובדים ומכירה לאנטרפרייזס

2תגובות

לירון ברק למדה לתואר הראשון שלה במדעי המחשב בגיל 14 ,שירתה 6 שנים ביחידת המודיעין 8200 תוך כדי השלמת תואר שני במדעי המחשב עם התמחות בבינה מלאכותית באוניברסיטת בר-אילן.

מיד לאחר סיום התואר השני, הקימה עם בעלה מאור חיזקיאב, אותו הכירה בצבא, את מיזם הסייבר ביטדם. לירון עברה מצד ההתקפה בו התמחתה בצבא, לצד ההגנה. ביטדם מתמקדת בהגנה על ארגונים מפני תקיפות שמגיעות אליהם דרך קבצים וקישורים. בניגוד לאנטי וירוס קלאסי שהוא תגובתי ומטפל בתקיפה כאשר היא כבר זוהתה ונותחה, ביטדם נוקטת בגישה פרו-אקטיבית. התוכנה מנתחת את האופן הנורמטיבי בו רצות אפליקציות ודפדפנים, ומזהה דפוסים חריגים שמעידים על פעילות חשודה בעת פתיחת קובץ או קישור.

לירון ברק
אייל מרילוס
להמשך הפוסט

איך מאתרים מחט בערמה של שחת?

ישנם יישומים רבים לאלגוריתמים של ניתוח ביג דאטה אך ישנו תחום אחד בו ביג דאטה עדיין אינו יעיל והוא זיהוי ומניעה של פעולות טרור

בפוסטים קודמים סקרתי חלק משיטות למידת המכונה והצגתי יישומים מוצלחים, לצד אתגרים בדרך אל ההצלחה. הפעם אתמקד בהתלהבות היתר שלצערי מאפיינת חלק מהעוסקים בנושא. יש פתגם ידוע שאומר כי "לתינוק עם פטיש, כל העולם נראה כמו מסמר".

באופן דומה, אנשים שהתחנכו אל תוך עולם הביג דאטה סבורים לא פעם שניתן לפתור כל בעיה בשיטות למידת מכונה. ואם לא הצלחנו בניסיון ראשון, ננקוט בכלל הידוע "מה שלא עובד בכוח, עובד בעוד יותר כוח", וננסה שוב ושוב. זאת טעות, בייחוד כאשר לא מקדישים מספיק זמן ללמוד את עולם הבעיה. רמזתי על כך בפוסטים קודמים.

Bloomberg
להמשך הפוסט

טור חירום: סקס – מוכר או לא מוכר?

כאשר תקופה משתנה, יש צורך לעצור ולחשב מסלול מחדש ■ שאלו את עצמכם איזה מן מותג אתם רוצים לבנות בעולם שהולך ומתהווה סביבנו, עולם בו שימוש במיניות נשית באופן מחפיץ כבר אינו לגיטימי ■ מותגים חייבים לעשות בחירה באשר לעמדתם בנושא - תהיה אשר תהיה

*הטור הזה נכתב באופן קצת שונה מהרגיל, היות ואני נוכח בלא מעט שיחות בנושא זה לאחרונה, ולתחושתי מותגים חייבים לעשות בחירה באשר לעמדתם בנושא - תהיה אשר תהיה.

את הפרדיגמה שסקס מוכר לא אנחנו המצאנו, וגם לא האינטרנט. עוד בימים שקדמו לו, השימוש במוטיבים מיניים (בעיקר נשיים) והחפצה היו כמעט ברירת המחדל של מותגים רבים מאוד. זה בא לידי ביטוי בליהוקים לפרסומות, אבל גם ב"עלילה" שלהן (מוכרים אפליקציה? טרקטור? מרית למטבח? סיגריות? התשובה לכל אלו היא, כמובן, דוגמנית בביקיני!). וזה לא עוצר בפרסומות – יש חברות שעיקר עיסוקן הוא התאמת "דיילות" (נשים לבושות בביגוד חושפני) לאירועים שונים, מכנסי טכנולוגיה מובילים ועד תערוכות רכב שונות ומשונות, והן קיימות כי יש דרישה בלתי פוסקת לדיילות כאלו.

צעדת הנשים בארה"ב
Whitney Curtis/אי־אף־פי
להמשך הפוסט

עשה ואל תעשה: איך פונים למשקיעים?

מאחורי כל מייל שנשלח למשקיע, עומד יזם מלא בתקווה ואמונה ■ רוב הפניות למשקיעים, שזמנם מוגבל ועמוס במאות פגישות בשנה - נענות בשלילה ■ אלו 5 טעויות שרצוי להימנע מהן, ו-5 דרכים שישפרו את הסיכוי שלכם להמשיך מהמייל – לפגישה המיוחלת

כמשקיע, אני מקבל עשרות פניות מדי חודש, תמיד יהיו כמה שליבי נחמץ כשאני קורא אותן. לפעמים זה יזם שמכתב בבת אחת את כל המשקיעים שאי פעם שמע עליהם ושולח לכולם את אותו המייל (בדרך כלל בסגנון של "יש לי רעיון מדהים שיהפוך אתכם לאנשים עשירים"), לפעמים זו הודעה בשפה קלוקלת מלאה בשגיאות כתיב. בכל אופן - הלב נחמץ. אני מוצא את עצמי חושב על כמות התקווה והאמונה שעומדת מאחורי השולח, אבל מאידך מבין, שהפור כבר נפל. הסיכוי שפנייה כזו תענה בחיוב ממשקיע רציני הוא קלוש ביותר.

מה אסור לעשות בפנייה הראשונה למשקיעים?

ערימת מכתבים
בלומברג
להמשך הפוסט

תואר שני ומשכורת של 30 אלף ש' בחודש: המספרים מאחורי תעשיית הדאטה סיינס בישראל

סקר גדול חושף מי הם מדעני הנתונים בישראל, מול אילו אתגרים הם עומדים ואיך השכר שלהם מושפע מגורמים כמו ניסיון והשכלה אקדמית

7תגובות

בפוסט הקודם סיפרתי על סקר ענק שנערך בקרב למעלה מ-16 אלף משמשים באתר קאגל, הבית של מדעני ומדעניות הנתונים. הסקר הצטרף למגמה חדשה של דמוקרטיזציית המידע בכלל, ובתעשיית ההיי-טק בפרט.

אם בעבר עובדים שהתעניינו בתעשייה הסתמכו בעיקר על סקרי שכר של חברות השמה וכתבות איכותניות במדורי ההיי-טק, בשנים האחרונות התארגנויות ברשתות החברתיות מאפשרות קיום של סקרים הרבה יותר מקיפים, וככל הנראה גם אמינים יותר. דוגמא לכך היא הסקר הגדול של קבוצת הפייסבוק "צרות בהיי-טק"', ובארה"ב האתר Glassdoor שמאפשר לעובדים ועובדות לקבל תמונה מאוד מקיפה על מקומות העבודה השונים.

עובדי הייטק בכנס מפתחים של גוגל
רויטרס
להמשך הפוסט

איך מתנהלים בוטסטראפ במשך 4 שנים - ודרישות הסף הגבוהות מצד משקיעים לאפליקציית קונסיומר

מירון, מייסדת וויקידס, אנציקלופדיה מדוברת לילדים, מדברת על גישור הפער בדרישות כאשר הלקוח והמשתמש הוא אדם שונה, גיוס טורי מול מקבילי ולמה היא ממליצה לא להיפגש עם קרנות בשלבים המוקדמים

ענבל מירון היא בעלת תעודת אדריכלות ועיצוב פנים ותואר ראשון במדעי החברה, ועבדה 16 שנה בתפקידי ניהול מוצר בכירים בחברות שונות.

יום אחד, כשבנה שב מהגן עם משימה ללמוד על קואלה, היא הבחינה שאין פתרון טוב להנגשת ידע לילדים קטנים בשלב טרום קריאה - וכך נולדה וויקידס, האנציקלופדיה המדוברת לילדים.

ענבל מירון-ברשטיין
ג׳קי ברשטיין
להמשך הפוסט

אחרי התואר במחשבים ולפני ראיון עבודה? אלו שפות התכנות הרלבנטיות שכדאי לך ללמוד

זו הרשימה של טכנולוגיות שנמצאות היום בשימוש בתעשייה, ולאו דווקא נלמדות בכל התארים ■ ממש לא כדאי להשהות את חיפוש העבודה וללמוד את כולן מא'-ת' במשך שבועות, אלא לדחות את הראיונות בכמה ימים וללמוד רק מה שאת מספיקה

שלום לך. עד עכשיו, התייחסנו לקורות החיים כאילו הפרויקטים, ובמיוחד הטכנולוגיות שאת מציגה נגזרו משמיים, ועכשיו נשאר רק לכתוב את קורות החיים כך שהן יציגו את הפרויקטים והטכנולוגיות באופן אופטימלי.

כמובן שזה לא בדיוק המצב - הפרויקטים והטכנולוגיות בהן רוב הסטודנטיות משתמשות נקבעים לרוב על ידי סגל ההוראה. מכיוון שכך, הם הרבה פעמים נקבעים באופן לאו-דווקא אופטימלי להשתלבות בתעשיה: עם כל הרצון הטוב, באקדמיה קשה לעדכן חומרי לימוד כל כמה סמסטרים לפי הקצב של התעשיה.

נשים בכנס בנושא אינטראקציה בארה"ב. היי טק נשים - סטארט אפ
בלומברג
להמשך הפוסט

איך חוקרים את התקשורת בין אנשים לאינטליגנציה מלאכותית - ולמה זה חשוב?

במהלך לימודי הדוקטורט במדעי המחשב בהרווארד פיתחה עפרה מערכת לעריכת מסמך משותף על ידי מספר אנשים. כחלק מהפרויקט פותח אלגוריתם שמראה לכל עורך את השינויים הרלוונטיים ביותר לו, ונמצאו דרכים למדוד את ביצועי המערכת ■ מחקרים נוספים של ד"ר עמיר עוסקים בדרכים להסביר לבני אדם החלטות של סוכנים חכמים, ישות שמקבלת החלטות באופן אוטומטי כמו למשל מכונית אוטונומית

שיטות בינה מלאכותית מתבגרות ומתפשטות במהירות, ולאפליקציות שלהן יש השפעה מכרעת על חיינו ביום יום. כבר היום מערכות המלצה משפיעות על מה שאנחנו קוראים וצופים, רכבים אוטונומיים חולקים את הכביש עם נהגים אנושיים ומערכות מבוססות AI לוקחות חלק בהחלטות רפואיות.

בעוד מאמץ רב מושקע בשיפור הדיוק ויכולת ההכללה של אלגוריתמי בינה מלאכותית, אנחנו מתעלמים מחלק חשוב במערכות הללו - האינטראקציה שלהן עם אנשים.

עפרה אמיר
ללא
להמשך הפוסט

על ערכים וערכים מוספים, או: איך יוצרים צמיחה אורגנית ללא קמפיין שיווקי

אנשים נוטים לשתף עם זולתם מקרים של ערך מוסף יותר מאשר מקרים של ערך שהם כבר מצפים לו ■ חשבו על הדברים שאתם מספקים במכלול החוויה המוצרית שלכם, שאין להם אזכור או הבטחה מקדימה

כשמדובר במסים, כולנו יודעים לעשות ניים דרופינג לערך מוסף, ומבינים בגדול למה הכוונה (זה הזה שאין באילת, אבל בגללו הטיסה לאילת יקרה מדי אז נקנה במרכז בכל זאת, לא?). ההבנה הזו משתנה כשזה מגיע לשיח מותגי, ובטח ובטח למותג שלכם.

אז נתחיל, כפי שנהוג, בהתחלה: הגדרה ראשונית למען יישור קו. אם כך, "ערך" הוא הבטחת המותג שלכם שמתממשת עם החוויה, "ערך מוסף" הוא מה שחורג מאותה הבטחה ראשונית, לא בהכרח משתמע ממנה, ובהכרח מוסיף לחוויה חיובית כוללת של לקוח קצה עם המותג שלכם.

פסטיבל לגו
© Mayerberg | ID 52639395
להמשך הפוסט

מאתגר זה טוב: עם היזמית אורית חשאי על אי-קומרס וגיוס בשלב החלום

אורית חשאי הגיעה ליזמות בדרך לא שגרתית ובה התנסתה בכל ההיבטים - מתכנתת שכירה בהיי-טק, יזמת ומשקיעה ■ המיזם הנוכחי שלה שהקימה ב-2012, חנות אינטרנטית להלבשה תחתונה בהתאמה אישית, מגלגל הכנסות של עשרות מיליוני דולר בשנה

אורית חשאי הגיעה ליזמות בדרך לא שגרתית, ובדרך הגשימה חלום אחרי חלום. היא גדלה במשפחה חרדית אך התעקשה ללמוד בתיכון חילוני ולסגור את פערי הידע. לאחר השירות הצבאי שלה, היא למדה הנדסת תוכנה ועבדה כמפתחת באמבלייז ובקומברס.

בשלב זה היא התחתנה והקימה את המיזם הראשון שלה, mit4mit, אתר חוות דעת לחתונות ואת אתר רמקול להמלצות על עסקים מקומיים, עם בן-זוגה דאז. לאחר מכן, היא פיתחה אפליקציות פייסבוק ומשם השתלבה כמשקיעה בקרן הון הסיכון כרמל על מנת ללמוד את הצד העסקי ומה קורה לחברות לאחר גיוס הכסף.

אורית חשאי
בריולה
להמשך הפוסט

סיווג מוצלח – סוף מעשה במחשבה תחילה

הפוסט הקודם המשיך לעסוק באחת מהטכניקות החשובות והשימושיות ביותר – סיווג (Classification). נזכיר כי המטרה היא למצוא אופן חלוקה (או מודל בשפה המקצועית) שיצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר. רמזתי שיש מספר דברים שיכולים להשתבש. אנסה להמחיש חלק מהאתגרים בדרך למודל סיווג מוצלח, כדי שתוכלו להעריך את הקשיים שיעמדו בפניכם.

ראשית, כדי לפתח מודל סיווג יש צורך בדוגמאות מתויגות עבור כל קבוצה אליה אנחנו רוצים לסווג. יש מקרים שאין בכך בעיה, אולם במקרים רבים מדובר באתגר לא קטן, מכמה סיבות. הזכרתי בפעם הקודמת את הקושי באיסוף דוגמאות לתביעות תמימות ותביעות זדוניות לצורך בנית מודל לאיתור הונאות ביטוח. לפעמים הקושי מתחיל עוד קודם, כי אין בנמצא מאגר מתויג (כלומר, עם תשובות נכונות). לדוגמא, אני רוצה לאמן מסווג שיזהה תקשורת זדונית שמקורה בהתקפת סייבר. כמו קודם, צריך להכין מאגרים של קטעי תקשורת זדוניים אל מול תמימים. אבל להבדיל מתביעות ביטוח שנבדקות ע"י אנשים שמקבלים החלטות, את הרוב המוחלט של תעבורת התקשורת עין אנוש לא שזפה. נדרש לבצע תהליך מלאכותי ארוך ומייגע וגם כאן אין כמובן ודאות לאיכות התיוג. גרוע מכך, לפעמים לא ניתן לעשות זאת כלל בשל הגנת פרטיות. 

להמשך הפוסט

ארוך ומייגע - אבל אפשרי: איך בונים מודל שחוזה את העתיד?

ככל שיש לנו יותר מידע - שיטות הסיווג רק הולכות ומשתפרות ■ ישנם עשרות אלגוריתמים קיימים לסיווג, ונעזרים בהם כדי לאמן את המודל שלכם לזהות דפוסים חריגים או כאלו שאתם רוצים לעקוב אחריהם

בשני הפוסטים הראשונים הצגתי בקצרה שתי שיטות למידה בלתי-מונחית (Unsupervised learning): גילוי אנומליות (Anomaly detection) ואישכול. בפוסט הקודם התחלנו לעסוק בשיטת הסיווג (Classification), אחת משיטות הלמידה המונחית (Supervised learning) החשובות והשימושיות ביותר ונמשיך לעסוק בה גם הפעם.

המטרה כאמור היא לחלק (או למיין) את העצמים לקבוצות שמוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה. הרעיון הבסיסי הוא ללמוד בצורה מונחה מדוגמאות אמיתיות שהתוצאה עבורן ידועה. נמחיש את תהליך הסיווג (וחלק מהקשיים בו) באמצעות דוגמה לגילוי הונאות ביטוח בתאונות דרכים. מטרתנו היא לבנות מודל שידע לסווג תביעות ביטוח חדשות לשתי קבוצות: תביעה רגילה (תמימה) ותביעה זדונית (הונאה).

מאט דיימון בסרט וויל האנטינג
צילום מסך מיוטיוב
להמשך הפוסט

כך עובדים האלגוריתמים של חברות אבטחת המידע

סיווג היא שיטה ללמידה מונחית באמצעות דוגמאות, שעבורן הסיווג הנכון ידוע מראש ■ המטרה היא למצוא אופן חלוקה שלהבא יצליח לסווג היטב פריטים חדשים לקבוצה המתאימה להם ביותר ■ בעולם המסחרי סיווג משמש לפילוח לקוחות ובעולם הסייבר - לזיהוי פעילות עוינת מסוגים שונים

בסיווג המטרה היא לחלק (או למיין) את העצמים לקבוצות, אבל הפעם מחליטים מראש מיהן הקבוצות, וכיאה ללמידה מונחית, יש בהחלט משמעות למושג "תשובה נכונה". הקבוצות מוגדרות מראש באמצעות דוגמאות של עצמים ששייכים לכל קבוצה.

קל להמחיש זאת באמצעות עולם החי. למשל, כולנו מבינים את המשמעות של שלוש הקבוצות הבאות: "יונקים" (למשל כלב, חתול), "עופות" (למשל יונה, תרנגולת) ו"חרקים" (למשל זבוב, יתוש). אם יראו לנו תמונה של פיל, כנראה שנדע לשייך אותה לקבוצת ה"יונקים", ברווז נשייך לקבוצת ה"עופות", ותמונה של ג'וק (אחרי שנפסיק להיגעל), נשייך לקבוצת ה"חרקים". אם לעומת זאת יראו לנו תמונה של לטאה, תהיה לנו איתה בעיה. כי לטאה היא לא יונק, לא עוף ולא חרק.

מתמטיקה
Dreamstime
להמשך הפוסט

וְקִבַּצְתִּי אֶתְכֶם מִכָּל הנתונים – על שיטות אישכול

פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער ■ חלוקת פריטי המידע לקבוצות בעלות איברים דומים, היא שיטה שימושית לצורך ארגון וניתוח ראשוני של הנתונים וממקדת אותנו מהר יותר במה שאנחנו מחפשים

בפוסט הקודם הצגתי בקצרה את שיטת גילוי האנומליות (Anomaly detection), אחת השיטות ללמידה בלתי-מונחית (Unsupervised learning). הפעם נעסוק באחת מהשיטות הפופולריות האלו – Clustering ובעברית אישכול (או צברור, או קיבוץ, ואפשר גם קליסטור). יש עשרות אלגוריתמים לאישכול, ולכולם אותה מטרה – לחלק את פריטי המידע לקבוצות בעלות איברים דומים.

למה זה טוב? כי פעמים רבות, בייחוד בעולם הביג דאטה, מרוב עצים לא רואים את היער. חלוקה לקבוצות מאפשרת לקבל תובנות חדשות מהנתונים מעצם חלוקתם לקבוצות. לדוגמה, אם נחפש בגוגל את המילה "ברק" נקבל תשובות רבות מאוד. אם נבצע אישכול על התשובות, הן יתחלקו לקבוצות בעלות מכנה משותף. למשל: מסמכים שעוסקים במזג אוויר, מסמכים שעוסקים בפוליטיקה (בגלל אהוד ברק), מסמכים הקשורים לעיר בני ברק, מסמכים שעוסקים בחוק ומשפט (בגלל השופט אהרון ברק), וכו'. עצם החלוקה לימדה אותנו יותר על המילה "ברק", וגם תאפשר לנו להתמקד מהר יותר במה שאנחנו מחפשים.

יער ירוק ועצים כשברקע מציצה שמש
Elena Schweitzer | Dreamstime.co
להמשך הפוסט