תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

לדחוס את הארגון קדימה

מדוע דחיסת נתונים מאפשרת את הקיום הדיגיטלי שלנו ולמה היא קריטית במיוחד לארגונים? מדריך הכיווץ המלא

באחד מפרקי הסדרה הקומית "עמק הסיליקון", שעוסקת בחבורת גיקים בסטארט-אפ "פייד פייפר" המבוסס על טכנולוגיה לכיווץ נתונים, רשלנות מצערת מביאה לכך שהם מוחקים בטעות שליש מספריית התוכן של אתר וידאו גדול. רגע לפני שהמנכ"לית זורקת אותם בבושת פנים מחדר הישיבות, מנסה ריצ'רד, הגיק הראשי, לסנגר על האלגוריתם שלו. "תראי", הוא אומר ללקוחה ההמומה, "הכיווץ שלנו הוא בעל עוצמה רבה כל כך, שהצלחנו למחוק את כל הקבצים האלה במהירות שאיש לא יכול היה להעלות על הדעת עד היום. אז תביאו בחשבון שאילו המתחרים שלנו היו מניחים בטעות בקבוק טקילה על מקש ה-Delelte כמו שקרה לנו, אני מבטיח שהם היו מתקשים למחוק חצי מכמות הקבצים שאנחנו מחקנו, במקרה הטוב".

Big Data
T.L. Furrer | Dreamstime.com

בדיחות על כיווץ נתונים מצחיקות כנראה חלק קטן מאוד מהאוכלוסייה, אבל דחיסת נתונים (Data Compression) היא הפלא שהופך את החיים הדיגיטליים לאפשריים. ללא האפשרות לכווץ משמעותית את נפחו של קובץ נתונים, לא ניתן היה ליהנות מיישומים פופולריים הנמצאים בשימוש יומיומי, כמו העברת וידאו ומוזיקה בהפרדה גבוהה על גבי האינטרנט או שימוש בנגני מדיה אישיים. לצורך יישומים אלה נדרשת יכולת לצבור כמות גדולה של קובצי מדיה על התקנים זעירים כמו זכרונות פלאש (דיסק-און-קי), כרטיסי זיכרון וטלפונים סלולריים. דחיסת הנתונים נעשית גם בעת שהנתונים נשמרים על גבי התקני זיכרון כמו כונני דיסקים קשיחים, וגם כאשר המידע מועבר מנקודה לנקודה ברשת, כדי לחסוך בעומס על התשתית. כמו משתמשים פרטיים, גם ארגונים זקוקים לטכנולוגיית דחיסה יעילה על מנת לאגור כמות גדולה של נתונים במערכי האחסנה שלהם ולנהלם ביעילות. טכנולוגיות מהשנים האחרונות, מבוססות התקני הבזק (פלאש), הן לא רק חסכוניות ופשוטות יותר לייצור לעומת כוננים קשיחים, אלא גם מהירות ואמינות יותר.

בארגונים, מעבר לטכנולוגיות כיווץ ואחסון נתונים מתקדמות הוא קריטי, כיוון שכמות המידע שהם נדרשים לאגור ולשלוף במהירות היא אינסופית. בשוק קיימים כמה סוגי פתרונות דחיסה ואחסון נתונים מבוססי פלאש, ואחד המוכרים שבהם הוא לדוגמה זה של חברת NetApp האמריקאית, הפועלת גם בישראל.

דחיסה משמרת לעומת מאבדת

אז מהי בעצם דחיסת נתונים? כל קובץ דיגיטלי, בצורתו המפושטת ביותר, הוא סדרה ארוכה של קוד בינארי המורכב מהספרות 0 ו-1. טכנולוגיות הדחיסה פועלות על פי עיקרון בסיסי אחד, שלפיו ניתן לאתר בתוך סדרה כזו רצפים החוזרים על עצמם, או רצפים של ספרות זהות, ולייצגם באופן מקוצר כך שבסופו של התהליך, קובץ הנתונים המלא יהיה בעל נפח קטן יותר. פעולת הדחיסה נעשית באמצעות אלגוריתמים שונים המאתרים את הרצפים הניתנים לדחיסה ומחליפים אותם במסמנים מוגדרים מראש. בזמן קריאת המידע נעשה תהליך הפוך, ואלגוריתם דומה לזה ששימש לדחיסה, אך פועל בכיוון הפוך, משחזר את המידע על פי אותם מסמנים.

יש להבחין בין שני סוגי דחיסה הנבדלים זה מזה הן באופן שבו מתבצעת פעולת הדחיסה והן ביישומים המתאימים להם. הסוג הראשון הוא דחיסה משמרת מידע (Lossless), ובו מופחת נפח המידע מבלי לפגוע בו, ובאופן שבו המידע המשוחזר, לאחר פרישתו של הקובץ מחדש, זהה לחלוטין למידע טרם הדחיסה. דחיסה משמרת מידע מאפשרת את השבתו של הקובץ הדחוס למצבו המקורי, בלי לאבד אף ביט מתוכו, ולכן היא מתאימה במיוחד ליישומים שבהם כל פגיעה במידע, ולו המינימלית ביותר, עלולה להפוך את קובץ המידע כולו לבלתי שמיש. כך למשל, תתאים דחיסה מסוג זה לנתונים מספריים ולתוכנות.

Prillfoto | Dreamstime.com

הסוג השני של הדחיסה קרוי דחיסה מאבדת מידע (Lossy), והוא מבוסס על העיקרון שלפיו ניתן להשמיט מתוך קובץ נתונים חלקים שאינם נחוצים לצורך שחזורו במידת דיוק המניחה את הדעת. שיטה זו משמשת בעיקר לשם דחיסתם של קובצי מדיה – אודיו, וידאו ותמונות – והיא מאפשרת את דחיסתם של מערכי נתונים גדולים מאוד לגדלים המאפשרים את העברתם ברשת או את שמירתם בהתקנים אישיים קטנים יחסית. זאת על ידי מחיקתו של מידע שאינו נקלט בחושים האנושיים או שחסרונו לא מורגש יחסית ואינו פוגם ביכולת לקלוט את המידע לאחר שחזורו. כך למשל, מושמטים מקובץ מוזיקה בפורמט MP3 תדרי שמע שאינם נקלטים באוזן האנושית, ומקובצי וידאו בפורמט MPG מוסר מידע החוזר על עצמו בין פריים לפריים  - כלומר, קטע וידאו באורך שנייה שבו נראית למשל דמות נעה על רקע קבוע, יכיל את תמונת הרקע פעם אחת בלבד, ואת המידע שמייצרת הדמות הנעה, בעוד שקובץ לא דחוס של אותה שנייה יכיל 24 תמונות נפרדות במלואן.

לבטל את הכפילויות

בארגונים רבים עולה בשנים האחרונות בחריפות הצורך בטכנולוגיות דחיסה וניהול חכם של נתונים שכמותם עולה אקספוננציאלית. יותר ויותר עסקים מעדיפים להימנע מאגירת נייר ולהעביר לדיגיטל את ניהול תיקי הלקוחות שלהם, המידע הארגוני, התכתובות הפנימיות ועוד פעולות המייצרות עוד ועוד מידע, וכך גם ארגונים קטנים, שעד לפני שנים מעטות לא ניהלו כמות גדולה של נתונים, נדרשים כיום לעשות זאת. אחת השיטות הנפוצות לחסוך בנפח המידע היא איתור וביטול כפילויות – Data Deduplication, המכונה לעתים בקיצור “Dedup”. בשיטה זו אלגוריתם מזהה בתוך מערך נתונים קבצים זהים, מוחק את כל העותקים הכפולים פרט לעותק מקור אחד, ומותיר במקום הקבצים המיותרים מצביעים אל מיקומו של הקובץ המקורי. פעולה זו יכולה להתבצע הן ברמת הקובץ השלם (File-level deduplication), והן מתחת לרמה זו, בחלקי קבצים (Block-level deduplication). בהשוואה לדחיסה, המכווצת את גודלו של הקובץ על ידי טיפול במרכיביו הבסיסיים והקטנים ביותר, זוהי טכניקה לחיסכון בנפח אחסון שמסתכלת על מקבצי נתונים גדולים יחסית, ומחפשת בהם תבניות החוזרות על עצמן.

יתרונן הגדול של טכנולוגיות הדחיסה לסוגיהן הוא בחיסכון הכספי המושג באמצעות אחסון כמות גדולה של נתונים על גבי התקני אחסון מעטים יחסית לאלה שהיו נדרשים כדי להחזיק את המידע כולו בצורה "פתוחה". עם זאת, חסרונן טמון בעומס על מערכות המחשוב בשל הצורך לדחוס את המידע לצורך שמירתו או העברתו, ולאחר מכן בפעולה הפוכה כדי לקרוא אותו. אף שפעולת הפתיחה נעשית לעתים באופן "שקוף" מבחינת המשתמש, היא איננה שקופה למעבדים ולזיכרון, ובמקרים מסוימים נדרש אפילו תגבור ייעודי לחומרה על מנת להתמודד עם הדחיסה. מהירות הפעולה גם היא רלוונטית לבחירה בטכניקת הדחיסה המתאימה. כך למשל, טכניקה המאפשרת דחיסה ברמה גבוהה, אך מעמיסה מאוד על מערכות המחשוב, תתאים לארגונים שמחזיקים בכמות גדולה של מידע אבל נדרשים לגשת אליו רק לעתים נדירות, כמו בנקים או חברות ביטוח שמנהלות תיקי לקוחות דיגיטליים. לעומת זאת, יישומים שבהם נדרשת גישה תכופה לחומר, כמו מערכות לעריכת וידאו, דורשים מערכי דחיסה שבהם שליפת המידע ושחזורו הם מהירים יחסית, גם אם הדבר בא על חשבון החיסכון בנפח האחסון.

לפרטים נוספים לחץ כאן 

כתבות שאולי פיספסתם

*#