קוד שבור: איך התגלגלה תקלה ברשת סלקום למשבר ארצי

בלילה שלפני התקלה בסלקום הריצו מהנדסי החברה קוד שגרם להשחתת נתונים ■ החלטה שלא להפסיק סנכרון בין המערכת גרמה להתפשטות הבעיה גם למערכת הגיבוי ■ בסלקום עדיין טוענים כי מקור התקלה לא ברור, ורומזים לאחריותה של ספקית המערכת נוקיה-סימנס

אור הירשאוגה - פרשנות - חדש
אור הירשאוגה
אור הירשאוגה - פרשנות - חדש
אור הירשאוגה

תקופה לא פשוטה עוברת על מחלקת המיתוג של סלקום, הפועלת תחת חטיבת ההנדסה של החברה. לפני כחודשיים קוצץ כוח האדם במחלקה, וכעת נראה כי פעולות שביצעו עובדי המחלקה, המונה עשרות עובדים, גרמו במישרין לתקלה שהשביתה את המכשירים הסלולריים של כשליש מתושבי המדינה למשך 12 שעות.

בבוקר יום רביעי קמו עובדי מחלקת המיתוג ליום שלא ישכחו לעולם. במהלך הלילה שבין שלישי לרביעי הריצו אנשי המחלקה קטע קוד ("סקריפט") אותו כתבו אנשי סלקום בעצמם. לכאורה פעולה שגרתית. הרצת קטע הקוד נועדה לאפשר לבסיס המידע הכולל את רשומות הלקוחות הסלולריים להכיל מידע על שירותים חדשים. קטע הקוד נוסה לפני לכן בסביבת מעבדה, שבה פעל באופן תקין. בסביבה החיה, עם זאת, גרם הקוד לכשל שהביא לתקלה החמורה שידעה חברת סלולר ישראלית מעודה. משהחל לרוץ במערכת גרם קטע הקוד להשחתת נתונים - המידע הרשום של הלקוח ניזוק, ומנע בפועל אימות של זהות המשתמש הסלולרי ולמניעת ביצוע שיחות. באופן תקין במקרה כזה היו צריכים בסלקום לעבור למערכת חלופית. החברה אכן מחזיקה בשתי מערכות זהות - הן לצורך ניתוב עומסים והן לצורכי גיבוי - האחת באור יהודה והשנייה ברמלה. אלא שהשחתת בסיסי הנתונים אירעה גם במערכת החלופית.

שתי המערכות מסונכרנות ביניהן ביומיום, כדי למנוע חוסר תאימות בנתונים. עם זאת, כשמבוצעים שינויים במערכת, נוהל הזהירות מחייב שהסנכרון בין המערכות יופסק. פעולה זו לא בוצעה בסלקום, כנראה מטעמי חסכון בזמן: הפסקת הסנכרון היתה מחייבת את מחלקת המיתוג לבצע את הרצת הקוד בשתי המערכות בנפרד.

בשלב זה עמדו בפני אנשי סלקום שתי אפשרויות: שיתוק כלל הרשת - כלומר כיבוי שתי המערכות וטעינתן מחדש בבסיס הנתונים כפי שנשמר בעותקי גיבוי על דיסקים, האפשרות השנייה היתה ניסיון לבצע הנדסה לאחור של פעולת הקוד על בסיס הנתונים בזמן אמת.

"אין פתרונות פשוטים בהליך כזה", הסביר מקור שהיה מעורב בתיקון התקלה. הבחירה באפשרות הראשונה היתה גורמת לשיתוקה של כלל רשת הסלולר של סלקום למשך כמה שעות, ולאובדן העדכונים בבסיס הנתונים למשך התקופה שחלפה מאז בוצע הגיבוי. האפשרות השנייה כללה רכיב לא מבוטל של סיכון: קשה להעריך את משך זמן התיקון - הוא עשוי להמשך כחצי שעה, או כמה ימים. יתר על כן, ניסיון לבצע הנדסה לאחור על מערכת חיה, בזמני עומס, קשה פי כמה.

בסלקום בחרו באפשרות השנייה: היא היתה ודאית פחות, אך כך יכלו בחברה לקוות כי משך התקלה יקוצר וכי מספר הלקוחות הנפגעים יקטן. זו גם הסיבה שמנכ"ל סלקום, עמוס שפירא, בחר לציין לאורך כל יום התקלה כי אינו יודע מתי תשוב המערכת לפעול בצורה תקינה. לפי דיווחי החברה ב-13:17 היקף התקלה הגיע לשיא חומרתו - בשעה זו היה שיעור השיחות המוצלחות ברשת כ-40%. מכיוון שמדובר בהליך הדרגתי תיקון השחתת בסיס הנתונים גרם לעלייה מתמשכת באחוז השיחות המוצלחות. בסלקום דיווחו כי ב-16:00 עמד אחוז השיחות המוצלחות ברשת על כ-66%. הקטנת העומס על המערכת בשעות הערב פישטה בהרבה את התהליך וסייעה להחזיר את השירות למרבית לקוחות סלקום. ב-21:15, לפי דיווחי החברה, חזרה המערכת לכשירות מלאה.

צילום: טלי מאייר

שומרים על עמימות

בסלקום מקפידים לשמור על עמימות בכל הנוגע למהות התקלה. אנשי החברה מדגישים כי מהות התקלה אינה ידועה, וכי חברת נוקיה-סימנס, יצרנית מערכת HLR עליה נמצא בסיס הנתונים שהושחת, עורבה כבר בשלב מוקדם. עוד נטען מהחברה כי לא בוצע כל הליך יוצא דופן בלילה שבין שלישי לרביעי.

תיאור השתלשלות האירועים שהובא כאן נסמך על ראיונות עם גורמים רבים, חלקם לקחו חלק פעיל בתיקון התקלה. תיאור זה בעייתי מאוד לסלקום. הוא מצביע על כך שהתקלה נגרמה באופן ישיר בשל פעולה של מהנדסי החברה, וכי מהנדסי החברה הם שכתבו את הקוד שיצר את הכשל. כמו כן הוא מצביע על כך שבשתי נקודות החלטה פעלה בחרה החברה במסלול שהיה כרוך בסיכון: הן בבחירה שלא להפסיק את הליך הסינכרון בין מאגרי המידע הכפולים והן בהחלטה על אופן תיקון התקלה. לפי גורמים בשוק התקשורת, הראשונה מבין אלה היתה חייבת לערב דרגים בכירים בחברה.

מסלקום נמסר בתגובה: "הדברים שמובאים מבוססים על ספקולציות. החברה לא תתייחס לדברים כל זמן שהבדיקה לא הסתיימה ולשם כך נמצאים בישראל מהנדסים בכירים מטעם נוקיה-סימנס".

מהי מערכת HLR?

מערכת ה-HLR, רכיב ליבה ברשתות סלולריות מסוג GSM, מאחסנת שדות מידע על כל לקוח ברשת: פרטי כרטיס ה-SIM של הלקוח, מספר הטלפון, השירותים הזמינים לו ומספרי אימות.

מערכת HLR של סלקום היא מערכת של נוקיה-סימנס. פרטנר מחזיקה במערכת מקבילה של אריקסון, ואילו פלאפון מחזיקה במערכת של HP. בדומה לחברות הסלולר האחרות בישראל, מחזיקה סלקום בשתי מערכות HLR - אחת ברמלה והשנייה באור יהודה. כפל המערכות הזה נועד לשם חלוקת עומסים ולצורכי גיבוי.

בכל כמה שבועות מריצות חברות הסלולר קוד שמטרתו שינוי מבנה בסיס הנתונים במערכת במטרה לעדכן את השירותים המוצעים ללקוח, למשל, לשם הפעלת שירות חדש דוגמת שיר בהמתנה. בלילה שבין שלישי לרביעי בוצעה פעולה זו בסלקום.

לחצו על הפעמון לעדכונים בנושא:

כתבות מומלצות

מטוס של וויז אייר. החברה הציעה פיצוי של 600 יורו

אל על מובילה בביטולים, המטוס של וויז אייר "קיבל מכת ברק": קיץ כאוטי בנתב"ג

רכבת תחתית בספרד. הקמת המטרו בישראל מוערכת בעלות של 150 מיליארד שקל

מיליארדים מהפקעות קרקע, סמכויות אגרסיביות, ופוליטיקה קטנה: המלחמה על חוק המטרו

סטודנטים באוניברסיטה העברית בירושלים. שיעורי התעסוקה עולים בהתמדה עם העלייה ברמת ההשכלה

איך מטפסים לעשירון השכר העליון — ומי מצא דרך עקיפה כדי להגיע אליו

גמר אקס פקטור. הוחלט שלא תשמש יותר לבחירת הנציג לאירוויזיון

"הכל זה הוא": שורת עזיבות ורייטינג צונח - למה רשת מובסת בקרב מול קשת?

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר TheMarker

כתבות שאולי פספסתם

כספומט ביטקוין ברומניה. רשתות בלוקצ'יין שיצליחו לשרוד את התקופה הנוכחית - ייתכן שיזכו בכל הקופה

המשבר בקריפטו נכנס לשלב הבא: מלחמת כל בכל

עומסים בנתב"ג

מבחינת חברות התעופה, השאלה אם תגיעו ליעד עם המזוודה היא "בעדיפות אחרונה"