שוב זה קרה לה: גוגל ניסתה לשדרג – והקריסה את מערכת Google Cloud
גוגל הודתה כי עדכון גרסה שהכניסה לרכיב בגוגל קלאוד הוביל לתקלה שנמשכה מספר שעות. עכשיו היא מבטיחה ללמוד מהטעות, עד הפעם הבאה לפחות

תמונה: dreamstime
ביום חמישי האחרון, שעות ספורות לפני שנכנסנו למלחמת ישראל-איראן, גוגל הצליחה לגרום לשעות של חרדה ברחבי העולם, והפעם זה לגמרי היה באשמתה. שירותי Google Cloud חוו תקלה עולמית קשה שנמשכה לפחות שלוש שעות והשביתה את הגישה של לקוחות לתשתיות הענן שלהם. אחת מהנפגעות הבולטות הייתה ספקית שירותי הרשת Cloudflare, מה שהוביל לכך שגם הלקוחות שלה חוו שיבושים.
בדוח שפירסמה גוגל לאחר האירוע, החברה הודתה בפשטות: התקלה נגרמה כתוצאה משדרוג כושל שהיא ביצעה בעצמה. בדיוק כמו שקרה לא פעם בעבר.
מרכז התקלה התגלה ברכיב פנימי שנקרא Service Control, שאחראי לבדוק אם לכל בקשה לשירותי Google Cloud יש הרשאות מתאימות, אם היא עומדת במדיניות הארגונית ואם היא לא חורגת ממכסת השימוש באותו האזור. ב-29 במאי גוגל ניסתה לשדרג את הרכיב הזה והוסיפה לו פיצ’ר חדש שמבצע בדיקות נוספות של מדיניות המכסה. הבעיה? הקוד החדש פשוט לא נבדק כמו שצריך בטרם עלה לאוויר.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
למרות שגוגל לא הייתה בטוחה לחלוטין שהשדרוג החדש יעבוד בצורה חלקה, ולכן דאגה להצמיד לו "כפתור אדום" שאמור היה לאפשר כיבוי חירום במקרה של בעיה, השדרוג כלל קוד לא מוגן שלא ידע מה לעשות כשמגיעים אליו שדות ריקים במדיניות, מה שהוביל לקריסה מיידית של הרכיב. הבעיה לא התגלתה בשום שלב של הטסטינג, כי הקוד נכנס לפעולה רק ברגע ששונו בפועל מדיניות ושדות מסוימים, מה שקרה לראשונה רק ב-12 ביוני.
מרגע שזה קרה, שירות Service Control נכנס ללופ של קריסות בכל האזורים בעולם בהם פועלת גוגל קלאוד. התוצאה: מערכות קריטיות יצאו מכלל פעולה ובאזורים הגדולים יותר של Google Cloud, גם תהליך השחזור עצמו יצר עומס כל כך כבד על התשתיות עד שלקח כמעט שלוש שעות לפתור את הבעיה לחלוטין.
לדברי גוגל, צוותי Site Reliability Engineering זיהו את התקלה תוך שתי דקות, איתרו את הסיבה בתוך עשר דקות והחלו לפעול לשחזור המערכות תוך 40 דקות – אך גם זה לא הספיק כדי למנוע את ההשלכות באזורים הגדולים. בנוסף, צוותים פנימיים של גוגל נאלצו לטפל בנפרד בשירותים שנפגעו בעקבות הקריסה' מה שהוסיף עוד שכבה של מורכבות לכל התהליך.
ומה עכשיו?
גוגל הבטיחה, שוב, ללמוד מהטעות, והפעם גם התחייבה לשני צעדים מעשיים:
- לשפר את מערך התקשורת עם הלקוחות, גם האנושי וגם האוטומטי, כדי לספק בזמן אמת את המידע שהם צריכים כדי לפעול.
- להבטיח שגם במקרה של קריסה כוללת, מערכות ההתראות והניטור של גוגל יישארו פעילות כדי שללקוחות תהיה אפשרות להבין מה קורה ולהגיב בהתאם.
וזה אולי הסיפור במהותו: גם גוגל מבינה שתקלות כאלו עוד יקרו, לפחות מעכשיו היא תנסה לדאוג שתדעו על זה בזמן.