שאלות הזהב למומחה הביג-דאטה שתעסיקו בסטארט-אפ שלכם

את רוצה לבצע פרויקט ביג דאטה ■ מה כדאי לשאול כבר בשלבים הראשונים ומה צריך להדליק נורות אדומות

יעקב רימר
ד"ר יעקב רימר
ניהול אסטרטגית שיווק
נתוניםצילום: Photo by rawpixel on Unsplash
יעקב רימר
ד"ר יעקב רימר

נניח שאת מנהלת עסק מצליח. יש לך נתונים רבים (ביג דאטה) ולדעתך ניתן להפיק מהן תובנות שיכולות לסייע ישירות לעסק, או לפיתוח של קו מוצרים חדש. נשאלתי מספר פעמים כיצד נכון להתניע ולנהל פרויקט ביג-דאטה. מגוון האפשרויות השונות גדול, אין מתכון אחיד, אבל אנסה לתת קווים מנחים להתנהלות נכונה עם מומחי הביג-דאטה (להלן המומחה).

ראשית, צריך להגדיר את מטרות הפרויקט. האם המטרה שלך להגדיל את המכירות המזדמנות? למקד את השיווק? לייעל או לבקר את תהליך היצור? להגן טוב יותר על החברה? ואולי כאמור להשתמש בנתונים שיש לך (או נוספים) כדי לפתח מוצר חדש עבור לקוחותיך.

שיחה ראשונה עם המומחה צריכה לנתח את האפשרויות השונות ולדון האם הנתונים שקיימים (לפחות לפי דעתך) אכן עשויים לסייע להשגת המטרות. אם בשלב הזה המומחה רק מהנהן ולא שואל אותך שאלות קשות, כנראה שכדאי לעבור למומחה הבא. ואם כבר בשלב הזה הוא מבטיח ש"יהיה בסדר" ושכל המטרות יושגו, כדאי לסכם מראש על מחיר שיותנה בהצלחה (מדידה!). תוצאות כנראה לא תקבלי, אבל לפחות לא תצטרכי לשלם על זה.

השלב הבא חייב להיות בדיקה מקיפה של הנתונים על ידי המומחה. לא ניתן לדעת האם המטרות ריאליות עד שהמומחה יבצע הערכת איכות ראשונית של הנתונים ומה ניתן להפיק מהם. אם הוא אומר לך שאין צורך בכך וניתן לעבור מיד להפעלת שיטות למידה שונות, צריכה להידלק לך נורה אדומה זוהרת. גם אם הוא כבר ביצע (לטענתו) עשרות פרויקטים דומים, הם לא היו על הנתונים שלך. אולי יש בהם מידע נוסף שעשוי לקצר תהליכים. אולי הם חסרים או משובשים ויהיה קושי לנתח אותם ללא תהליכים מכינים. יש תחומים רבים שבהם צריך להכין את הנתונים ולבצע מניפולציות שונות כדי להשתמש בהם במחקר באופן מושכל. את כל זה את רוצה לדעת לפני שהמומחה יבזבז חודשים של עבודת סרק.

שאלות נוספות שכדאי לדון בהן כבר בשלבים הראשונים הן מה אופיים של הנתונים, כיצד נכון לאגור אותם, ומתי לנתח אותם. כשעסקתי בנושא של אלגוריתמים התנהגותיים, ציינתי שאפשר לחלק באופן גס את הנתונים בעולם הביג-דאטה לשתי קבוצות: סטטיים ודינמיים. נתונים סטטיים מתעדכנים בדרך כלל בקצב איטי יחסית, בעוד נתונים דינמיים נוצרים בד"כ כתוצאה מאירועים שהתרחשו בנקודות זמן מסוימות ולכן הם "זורמים". כלומר, כל הזמן מתווספים נתונים חדשים. שיטת האגירה של הנתונים שתענה על מטרות המחקר צריכה להתאים לאופי הנתונים. לא אעסוק כאן בצדדים הטכניים (מאוד) של הנושא הזה, רק אציין מספר שאלות שכדאי לך מאוד לשאול.

קוד

ראשית, יתכן ומאגר הנתונים כבר מעורב היום בשימוש אחר, למשל לעובדים שלך יש מערכת ששולפת ממנו. האם הפרויקט עלול להפריע או להאט את תהליך השליפות? אם כן, אולי צריך להעתיק את הנתונים למאגר אחר, כדי ששני התהליכים לא יפריעו זה לזה. אם הנתונים הם דינאמיים, האם את רוצה לנתח אותם מיד כשהם נוצרים (או מתקבלים), או שנכון יותר לחכות פרק זמן מסוים כך שיצטבר יותר מידע. האם נתונים שנוצרו לפני כחודש עדיין רלוונטיים? כלומר, האם נכון ללמוד ולהסיק מסקנות מנתונים ותיקים, או שצריך לעדכן כל הזמן את תהליך הלמידה בהתאם לנתונים העדכניים. לצערי, אין לי מתכונים כללים לשאלות האלו, מעבר להמלצה לשאול אותם ולוודא שהמומחה מתייחס אליהן בכובד ראש.

לא אעסוק כאן באופן בחירת השיטות המתאימות לניתוח הנתונים, אולי אכתוב על כך בהמשך. אבל במידה והוחלט להשתמש בלמידה מונחה, צריך לוודא שיש מספיק דוגמות מתויגות. במידה ואין, יתכן והפרויקט דורש זמן ומשאבים לתייג את הדוגמאות וכדאי לדעת את זה מוקדם. לעיתים קל להעביר את המטלה (המשמימה) הזו למיקור חוץ, אבל אם מדובר בנתונים שלא ניתן להוציא מהארגון, או שדורשים מומחיות מיוחדת, הנושא הזה עלול להכביד או אפילו לעצור את היכולת להתקדם בפרויקט.

וכמובן שצריך להסכים איך למדוד את איכות התוצאות. המומחה צריך להציע את השיטה, אבל הנה כמה טיפים עבורך. ראשית, תמיד עלייך לחשוד כשהדברים נראים טוב מכדי להיות אמיתיים. כל אופטימיסט יאמר שזה יכול לקרות. בעל ניסיון יציע לבדוק האם ואיפה נעשתה שגיאה לפני שיקבל אותן. שנית, כדאי לנסות לכמת את המדידה בהתאם למטרה שלך, וגם להחליט מה חשוב יותר. זאת מכיוון שבד"כ יש יחסי גומלין בין השגיאות האפשריות. ועוד נקודה חשובה, לפעמים כדי לדעת האם הפרויקט אכן הצליח, צריך להתנסות גם על נתונים חדשים שלא נאספו מראש. המשמעות היא שמומחי התוכן שלך שוב יצטרכו לשתף פעולה עם צוות הפרויקט. מניסיון, כדאי להכין אותם מראש.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים על פי נושאים, מאתר הבית שלי.

יעקב רימר

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ