כאב הראש של קוברנטיס: 80% מהתקלות נובעות משינויים במערכת
דוח חדש חושף: זמן התגובה לתקלות ארוך, עלויות הענן גבוהות ורוב הארגונים עדיין נכווים מהשבתות בפרודקשן, אבל יש גם תובנות שיעזרו להתמודד

תמונה: dreamstime
בתור אנשי טכנולוגיה, כולנו מכירים את זה: עובדים שעות על שינוי קטן, דוחפים אותו לפרודקשן ופתאום משהו נשבר. מכאן זה יכול להתפתח ללילה לבן של חיפושים אחר שורש הבעיה, לפעמים עם לחץ מההנהלה על העלויות והנזקים ללקוחות. אם זה נשמע לכם מוכר, אתם לא לבד. מחקר חדש שערכה חברת קומודור הישראלית חושף שזו תופעה נרחבת בענף. הדוח, שמבוסס על נתוני תפעול ממאות ארגונים גדולים, מראה תמונה לא פשוטה: למרות שקוברנטיס הפך מזמן לסטנדרט, רוב החברות עדיין נאבקות עם יציבות הסביבות ועלויות התפעול.
תקלות, זמן וכסף: התמונה העגומה שחוזרת על עצמה
הדוח מצייר תמונה עקבית: מורכבות המערכות עולה מהר יותר מהיכולת של הארגונים לתפעל אותן. כמעט 80% מהתקלות נובעות משינויים שבוצעו לאחרונה במערכת. מעבר לכך, בממוצע, לוקח כמעט 40 דקות לזהות תקלה חמורה, ויותר מ-50 דקות לפתור אותה. בסך הכל, צוותים מבזבזים יותר מ-64 ימי עבודה בשנה רק על איתור ופתרון תקלות, והנזקים כספיים הם עצומים כשכמעט 40% מהחברות מדווחות על תקלות קריטיות מדי שבוע, ויותר מ-60% מהן מעריכות את עלות השעה של השבתה במעל מיליון דולר.
הדוח גם חושף נתון מעניין שקשור לניהול משאבים: 82% מהוורקלואדס בקוברנטיס מקבלים הקצאת יתר של משאבים (CPU וזיכרון) כדי "לשחק על בטוח". כתוצאה מכך, יותר מ-65% מהם מנצלים פחות מחצי מהמשאבים שהוקצו להם, מה שמעלה את חשבון הענן לחינם. רק 7% מהוורקלואדס מנוהלים בצורה אופטימלית מבחינת משאבים.

תמונה: dreamstime
יש המלצות לשיפור
הדוח לא רק מציג את הבעיות, אלא גם נותן כמה קווים מנחים איך להתמודד איתן. ראשית, יש "לבנות קו הגנה" לשינויים על ידי שימוש ב-GitOps ובכלים אוטומטיים שיזהו ויחסמו קונפיגורציות מסוכנות עוד בשלב הדיפלוימנט. שנית, מומלץ לשלב AI באובזרבליטי כדי לאחד Metrics, Logs ו-Traces (MLT) בפייפליין אחד, ולהשתמש בכלי AI ל-Anomaly Detection, Root Cause Analysis ותיקון אוטומטי.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
יש עוד: חשוב ליצור אוטומציה של פתרון תקלות על ידי הכנת Runbooks מוכנים והגדרת מדיניות Escalation ברורה, כך שהמערכת תוכל לטפל אוטומטית בבעיות נפוצות. ולבסוף, יש למנוע בזבוז משאבים על ידי ביצוע Rightsizing באופן רציף, יישום מדיניות הגבלת CPU/זיכרון ושימוש ב-Autoscaling חכם כדי לאזן בין ביצועים לעלות.
בשורה התחתונה, הדוח מדגיש שבעוד שאימוץ קוברנטיס הפך למובן מאליו, האתגר האמיתי הוא התפעול השוטף. "האתגר האמיתי הוא תפעולי, לא ארכיטקטוני", אמר איתיאל שוורץ, CTO ומייסד שותף בקומודור, "גם כששיטות כמו GitOps תופסות תאוצה, ארגונים עדיין מתמודדים עם ניהול שינויים, שליטה בעלויות ופערים במיומנויות".