קוד שבור: איך התגלגלה תקלה ברשת סלקום למשבר ארצי

בלילה שלפני התקלה בסלקום הריצו מהנדסי החברה קוד שגרם להשחתת נתונים ■ החלטה שלא להפסיק סנכרון בין המערכת גרמה להתפשטות הבעיה גם למערכת הגיבוי ■ בסלקום עדיין טוענים כי מקור התקלה לא ברור, ורומזים לאחריותה של ספקית המערכת נוקיה-סימנס

אור הירשאוגה - פרשנות - חדש
אור הירשאוגה
שתפו כתבה במיילשתפו כתבה במייל
שתפו כתבה במיילשתפו כתבה במייל
אור הירשאוגה - פרשנות - חדש
אור הירשאוגה

תקופה לא פשוטה עוברת על מחלקת המיתוג של סלקום, הפועלת תחת חטיבת ההנדסה של החברה. לפני כחודשיים קוצץ כוח האדם במחלקה, וכעת נראה כי פעולות שביצעו עובדי המחלקה, המונה עשרות עובדים, גרמו במישרין לתקלה שהשביתה את המכשירים הסלולריים של כשליש מתושבי המדינה למשך 12 שעות.

בבוקר יום רביעי קמו עובדי מחלקת המיתוג ליום שלא ישכחו לעולם. במהלך הלילה שבין שלישי לרביעי הריצו אנשי המחלקה קטע קוד ("סקריפט") אותו כתבו אנשי סלקום בעצמם. לכאורה פעולה שגרתית. הרצת קטע הקוד נועדה לאפשר לבסיס המידע הכולל את רשומות הלקוחות הסלולריים להכיל מידע על שירותים חדשים. קטע הקוד נוסה לפני לכן בסביבת מעבדה, שבה פעל באופן תקין. בסביבה החיה, עם זאת, גרם הקוד לכשל שהביא לתקלה החמורה שידעה חברת סלולר ישראלית מעודה. משהחל לרוץ במערכת גרם קטע הקוד להשחתת נתונים - המידע הרשום של הלקוח ניזוק, ומנע בפועל אימות של זהות המשתמש הסלולרי ולמניעת ביצוע שיחות. באופן תקין במקרה כזה היו צריכים בסלקום לעבור למערכת חלופית. החברה אכן מחזיקה בשתי מערכות זהות - הן לצורך ניתוב עומסים והן לצורכי גיבוי - האחת באור יהודה והשנייה ברמלה. אלא שהשחתת בסיסי הנתונים אירעה גם במערכת החלופית.

שתי המערכות מסונכרנות ביניהן ביומיום, כדי למנוע חוסר תאימות בנתונים. עם זאת, כשמבוצעים שינויים במערכת, נוהל הזהירות מחייב שהסנכרון בין המערכות יופסק. פעולה זו לא בוצעה בסלקום, כנראה מטעמי חסכון בזמן: הפסקת הסנכרון היתה מחייבת את מחלקת המיתוג לבצע את הרצת הקוד בשתי המערכות בנפרד.

בשלב זה עמדו בפני אנשי סלקום שתי אפשרויות: שיתוק כלל הרשת - כלומר כיבוי שתי המערכות וטעינתן מחדש בבסיס הנתונים כפי שנשמר בעותקי גיבוי על דיסקים, האפשרות השנייה היתה ניסיון לבצע הנדסה לאחור של פעולת הקוד על בסיס הנתונים בזמן אמת.

"אין פתרונות פשוטים בהליך כזה", הסביר מקור שהיה מעורב בתיקון התקלה. הבחירה באפשרות הראשונה היתה גורמת לשיתוקה של כלל רשת הסלולר של סלקום למשך כמה שעות, ולאובדן העדכונים בבסיס הנתונים למשך התקופה שחלפה מאז בוצע הגיבוי. האפשרות השנייה כללה רכיב לא מבוטל של סיכון: קשה להעריך את משך זמן התיקון - הוא עשוי להמשך כחצי שעה, או כמה ימים. יתר על כן, ניסיון לבצע הנדסה לאחור על מערכת חיה, בזמני עומס, קשה פי כמה.

בסלקום בחרו באפשרות השנייה: היא היתה ודאית פחות, אך כך יכלו בחברה לקוות כי משך התקלה יקוצר וכי מספר הלקוחות הנפגעים יקטן. זו גם הסיבה שמנכ"ל סלקום, עמוס שפירא, בחר לציין לאורך כל יום התקלה כי אינו יודע מתי תשוב המערכת לפעול בצורה תקינה. לפי דיווחי החברה ב-13:17 היקף התקלה הגיע לשיא חומרתו - בשעה זו היה שיעור השיחות המוצלחות ברשת כ-40%. מכיוון שמדובר בהליך הדרגתי תיקון השחתת בסיס הנתונים גרם לעלייה מתמשכת באחוז השיחות המוצלחות. בסלקום דיווחו כי ב-16:00 עמד אחוז השיחות המוצלחות ברשת על כ-66%. הקטנת העומס על המערכת בשעות הערב פישטה בהרבה את התהליך וסייעה להחזיר את השירות למרבית לקוחות סלקום. ב-21:15, לפי דיווחי החברה, חזרה המערכת לכשירות מלאה.

צילום: טלי מאייר

שומרים על עמימות

בסלקום מקפידים לשמור על עמימות בכל הנוגע למהות התקלה. אנשי החברה מדגישים כי מהות התקלה אינה ידועה, וכי חברת נוקיה-סימנס, יצרנית מערכת HLR עליה נמצא בסיס הנתונים שהושחת, עורבה כבר בשלב מוקדם. עוד נטען מהחברה כי לא בוצע כל הליך יוצא דופן בלילה שבין שלישי לרביעי.

תיאור השתלשלות האירועים שהובא כאן נסמך על ראיונות עם גורמים רבים, חלקם לקחו חלק פעיל בתיקון התקלה. תיאור זה בעייתי מאוד לסלקום. הוא מצביע על כך שהתקלה נגרמה באופן ישיר בשל פעולה של מהנדסי החברה, וכי מהנדסי החברה הם שכתבו את הקוד שיצר את הכשל. כמו כן הוא מצביע על כך שבשתי נקודות החלטה פעלה בחרה החברה במסלול שהיה כרוך בסיכון: הן בבחירה שלא להפסיק את הליך הסינכרון בין מאגרי המידע הכפולים והן בהחלטה על אופן תיקון התקלה. לפי גורמים בשוק התקשורת, הראשונה מבין אלה היתה חייבת לערב דרגים בכירים בחברה.

מסלקום נמסר בתגובה: "הדברים שמובאים מבוססים על ספקולציות. החברה לא תתייחס לדברים כל זמן שהבדיקה לא הסתיימה ולשם כך נמצאים בישראל מהנדסים בכירים מטעם נוקיה-סימנס".

מהי מערכת HLR?

מערכת ה-HLR, רכיב ליבה ברשתות סלולריות מסוג GSM, מאחסנת שדות מידע על כל לקוח ברשת: פרטי כרטיס ה-SIM של הלקוח, מספר הטלפון, השירותים הזמינים לו ומספרי אימות.

מערכת HLR של סלקום היא מערכת של נוקיה-סימנס. פרטנר מחזיקה במערכת מקבילה של אריקסון, ואילו פלאפון מחזיקה במערכת של HP. בדומה לחברות הסלולר האחרות בישראל, מחזיקה סלקום בשתי מערכות HLR - אחת ברמלה והשנייה באור יהודה. כפל המערכות הזה נועד לשם חלוקת עומסים ולצורכי גיבוי.

בכל כמה שבועות מריצות חברות הסלולר קוד שמטרתו שינוי מבנה בסיס הנתונים במערכת במטרה לעדכן את השירותים המוצעים ללקוח, למשל, לשם הפעלת שירות חדש דוגמת שיר בהמתנה. בלילה שבין שלישי לרביעי בוצעה פעולה זו בסלקום.

לחצו על הפעמון לעדכונים בנושא:

כתבות מומלצות

שיעור באוניברסיטה. באקדמיה מצופה מהסטודנטים להתמודד עם בעיות שלא ראו קודם

הסטודנטים באקדמיה נדרשים לראשונה לחשיבה מעמיקה - והתוצאות עגומות

דירה בהנחה

6,269 משקי בית זכו בהגרלה. אבל האם בכלל כדאי לקנות דירה בהנחה?

לחוסכים הסולידיים יש אלטרנטיבה

שעתו היפה של החוסך הסולידי: יש חלופה טובה יותר לפיקדון בבנק

טסלה, מודל S. המחיר למי שיזמין את המודל היום ייקבע בהמשך

אחרי כמעט שנתיים: הדגמים הגדולים של טסלה מגיעים לישראל

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

אלעד כהן (מימין), ניצן רנגיני בוצר ודניאל בוצר

ממשכורת של 30 שקל בשעה – לווילה בת שלוש קומות במושב מבוסס בשרון

מסיבה בבריכה, אילוסטרציה

בעל הבית מרוויח 15 אלף שקל ללילה - החיים של השכנים נהפכו לסיוט