מארי קונדו למתכנתים: איך לארגן את הדברים שלכם

דמיינו שאתם נמצאים בספריה ענקית והוטלה עליכם משימה לסכם ספרים מסוימים, שמסודרים לפי נושא ■ בהנחה שהספרן או הספרנית לא נמצאים - מהי הדרך היעילה ביותר לאתר אותם?

ד"ר יעקב רימר
מפיות מסודרות לפי שיטת מארי קונדו
צילום: אי־פי
ד"ר יעקב רימר

שיקולים לאגירת נתונים נכונה - חלק א'

נגעתי פעמיים בעבר בנושא של אגירת נתונים. כאשר סקרתי מה מומחה ביג-דאטה טוב צריך להכיר וגם בשיקולים בפרויקט ביג דאטה. ציינתי שהנושא קריטי ככל שכמות הנתונים גדלה ותלוי גם בקצב אגירת הנתונים, במהירות הנדרשת למתן תשובות ועוד. בפוסט הזה אתחיל להסביר במה דברים אמורים, מבלי לגלוש לפרטים טכניים מידי.

דמיינו שאתם נמצאים בספריה ענקית. יש אומרים שבעידן האינטרנט הספריות הפיזיות נעלמות ובעתיד הלא-רחוק באמת יישארו רק בדמיון. אבל אני מקווה שהייתם פעם או לפחות שראיתם ספריה כזו בטלוויזיה. כעת נניח שקיבלתם מטלה (שלא לומר עונש) לסכם את הנאמר בכל אחד מהספרים בספריה. האם יהיה אכפת לכם איך הספרים מאורגנים? כנראה שלא. אם אתם ממילא צריכים לעבור סדרתית על כל הספרים, מה זה כבר משנה.

אולי התמזל מזלכם ואתם צריכים לסכם רק ספרים שנכתבו על ידי סופר אלמוני, שלשמחתכם חיבר שני ספרים בלבד. במקרה כזה הייתם מאוד רוצים לדעת היכן נמצאים שני הספרים האלו בספריה. אולי כל הספרים מאורגנים בה על פי שם המשפחה של הסופר, ואז אתם רק צריכים לגשת למקום הנכון לפי סדר הא"ב (ולקוות שלא קוראים לו כהן). אבל אם הספרים מסודרים לפי שם הספר דווקא, אתם צריכים לקוות שיש בספריה רשימה של כל הספרים ושמות המחברים שלהם.

ספרייה באוניברסיטת הרווארד. נשים מתקשות להתקדם
במקצועות שכרוכים בעבודת צוות
ספרייה באוניברסיטת הרווארדצילום: רויטרס

לשמחתכם יש רשימה כזו (קטלוג). אבל כעת עולה השאלה איך נחפש בקטלוג. אם מדובר ברשימה מודפסת, אתם צריכים לעבור סדרתית על כולה כדי לאתר את שמות שני הספרים. אלא אם הקטלוג הזה כבר ממוין לפי שם הסופר, ואז חייכם יהיו קלים יותר. שוב תוכלו לקפוץ ישירות אל שמו לפי הא"ב. לעומת זאת, אם מדובר בטבלה ממוחשבת (נניח באקסל), אתם יכולים לחפש בה מיידית את שם הסופר ולמצוא את שני הספרים שלו בקלות, ללא קשר לאופן המיון שלה. עדיין עליכם כמובן לגשת ולמצוא את הספרים בספריה, שממוינת כזכור לפי שמות הספרים. אבל רגע, מה אם אני צריך למצוא את כל הספרים שעוסקים בנושא מסוים, למשל "התקופה האשורית התיכונה"?

הדוגמה הציורית הזו מתחילה להמחיש את השיקולים השונים של אחזור מידע. בעולם המחשוב המודרני קל לאחזר מידע. אפשר ליצור ולחפש בקלות בתוך קטלוגים ממוחשבים של פרטי הספר (שם הספר, שנת הפרסום, שם המחבר וכדומה). אפשר לתייג את הנושאים השונים שהספר עוסק בהם. וכמובן שאפשר גם לבצע אינדוקס מלא של כל המילים שמופיעות בספר, ולחפש כל מה שרוצים (כלומר, לעשות גוגל). לכאורה הכול פשוט וברור, אבל רק לכאורה.

נחזור לדוגמת הספרייה ונניח ש-500 איש מבקרים בה כל יום, כדי לחפש ולשאול ממנה ספרים. כל מי שמעונין למצוא ספר יכול לעשות זאת בעצמו בקלות באמצעות הקטלוגים הממוחשבים של הספרייה. אבל הוא חייב להיעזר בספרן כדי לשאול את הספר, זאת על מנת להבטיח שהקטלוג של זמינות הספרים יהיה תמיד מעודכן. הבעיה שבגלל קיצוצי תקציב, יש בספריה רק ספרן אחד. זה יוצר צוואר בקבוק ביכולת לעדכן את קטלוג הספרייה. כלומר, יתכן מצב שבו קל ומהיר לאחזר מידע קיים, אבל תהליך העדכון של המידע יהיה איטי ומסורבל.

קוונטים, מחשבים, טכנולוגיה
צילום: Getty Images ISRAEL

שימו לב שגם בספריה הדמיונית ללא הקטלוגים יכול להיווצר מצב כזה. ראשית, אמרנו שהספרים בה ממוינים לפי שם הסופר. בכל פעם שהספרייה מקבלת ספרים חדשים של סופר מסוים, נדרש לוודא שהם יהיו באותו מדף. ומה קורה כשהוא מתמלא? שנית, בספריה הזו ממש לא רצוי לאפשר למבקרים להחזיר ספר למקום לבדם. בהצלחה למי שינסה למצוא אותו אם הוא יוחזר בטעות למדף אחר. למעשה, זה נכון לכל ספריה או ארכיון ולצערנו גם אחת מהדרכים המקובלות למי שרוצה "להעלים" תיק מסוים בארכיון פיזי.

עד כה עסקנו בדוגמות פשוטות למדי. אעבור לדוגמה מעט יותר מורכבת. אני מעוניין לבנות מערכת שתאפשר למכור כרטיסי קולנוע באינטרנט, בקופות ובמשרדי כרטיסים. לכאורה מה הבעיה? בקולנוע מסוים יש כ-10 סרטים ביום. גם אם נניח שמוכרים כרטיסים שבוע מראש, מדובר בכמות נתונים מועטה.

אפשר להסתדר אפילו עם קובץ אקסל פשוט. הבעיה כאן היא רמת הזמינות והעדכניות של הנתונים. לא נעים למכור את אותו הכיסא פעמיים. גם רצוי למכור מחדש כרטיסים שבוטלו מהר ככל האפשר. כלומר, האתגר אינו בכמות הנתונים ובאחזור שלהם, אלא בעדכניות שלהם וביכולת לעדכן (באופן נכון) ממספר מקומות שונים. איך פותרים את הבעיות האלו? אלו שיטות אגירה מקובלות היום? המשך בפוסט הבא.

הערה לקוראי הבלוג הנאמנים: ניתן לגשת לכל הפוסטים מסודרים ע"פ נושאים, מאתר הבית שלי.

ד"ר יעקב רימר | |מיסטר ביג ומר דאטה

יועץ בכיר ומרצה בנושאי סייבר, ביג דאטה ומדעים, בעל דוקטורט ממכון ויצמן למדע. עוסק בעשור האחרון במחקר מדעי במקביל לייעוץ לחברות היי-טק ומשרדי ממשלה. בעבר שימש בתפקידים בכירים בהיי-טק ובמשרד ראש הממשלה. מרצה משופשף ומנוסה, שמתמחה בהמחשת נושאי מדע וטכנולוגיה "קשים לעיכול" בגובה העיניים. משלב בכתיבתו והרצאותיו את הניסיון ארוך השנים בתעשיית ההיי-טק ובאקדמיה, יחד עם העברת מסרים ברורה והומור.

הבלוג ינסה להמחיש לקורא המתעניין (וגם הלא-מקצועי) מה כוחם האמיתי של ניתוח נתונים, למידת מכונה או ביג דאטה. מה אפשר (או אי אפשר) לעשות באמצעות שיטות אלו ואיך כל זה נוגע לפרטיות שלנו.

LinkedIn 

Home Page

תגובות

הזינו שם שיוצג כמחבר התגובה
בשליחת תגובה זו הנני מצהיר שהינני מסכים/ה עם תנאי השימוש של אתר הארץ