מפקד יחידת לוטם לשעבר מסביר: כך תמנעו הפתעות במערכת בזמן אמת

גם עם האנשים הכי מבריקים או החיילים הכי מצטיינים - אי אפשר להיות בטוחים שברגע האמת הדברים יתנהגו בדיוק כפי שאנו מצפים אם לא נבדוק, נבחן ונתרגל אותם. אנחנו גילינו הפתעות וכמה רווחים משניים

כתב אורח
30.10.24

מאת עומר דגן

לפני מספר שנים הייתה לי הזכות להיכנס לתפקיד מפקד יחידת לוטם – יחידת הדיגיטל והמידע המרכזית של צה”ל. כיאה לכל מפקד הנכנס לתפקיד, ובפרט מפקד בכיר, ביצענו – הפורום האסטרטגי של היחידה (פורום הכולל את מפקדי יחידות המשנה כגון ממר”ם, קציני המטה המרכזיים ואני) – תהליך אסטרטגי לזיהוי ומיפוי המשפיעים החיצוניים על היחידה, האתגרים הפנימיים איתם היא מתמודדת ותתמודד בעתיד, הזדמנויות שונות ועוד. בסוף התהליך קבענו את האסטרטגיה והתרבות הארגונית של היחידה לשנים הבאות.

בראש האסטרטגיה שקבענו הצבנו את כשירות ומוכנות מערכות היחידה, אנשיה והיחידה כולה. נשמע דבר טבעי ליחידה צבאית, אך היחידה הזו היא טכנולוגית והיזמות והחדשנות הן נשמת אפה. החלטנו כך כי הבנו שהתשתיות והמערכות שהיחידה מפתחת ומתפעלת הן בשימוש נרחב בהרבה מבעבר וכך גם ההתבססות עליהן.

להוציא את האסטרטגיה מהפלקטים

אבי תורת הניהול, פיטר דרוקר, אמר שהתרבות אוכלת את האסטרטגיה לארוחת בוקר. אז אחרי הכשירות והמוכנות, החלטנו גם על ההתאמות הנדרשות בתרבות הארגונית של היחידה וגיבשנו תוכנית פעולה למימוש האסטרטגיה, כדי שלא תישאר על הפלקטים היפים שנתלו ברחבי היחידה.

תוכנית הפעולה כללה מרכיבים ברורים, כמו גיבוש ומימוש ארכיטקטורה המאפשרת עושר דיגיטלי מבוסס מידע, אך לא פחות חשוב מכך מאפשרת גם גידול (Scalability), אמידות (יש שיאמרו ארכיטקטורה בלתי-שבירה; Resilience) ומוגנת מפני איומי סייבר; והשלמת מעבר היחידה לתפיסת DevOps, ובמיוחד הטמעת אחריות ה-Ops בקרב גופי הפיתוח; ועוד ועוד. אולם כל זה אינו מספיק – הבנו שגם אם נבצע את הכל בהצטיינות, אלא אם נבדוק, נבחן ונתרגל את מה שביצענו, לא נוכל להיות בטוחים שברגע האמת הדברים יתנהגו בדיוק כפי שאנו מצפים.

אז מה בודקים, בוחנים ומתרגלים? התשובה הפשוטה היא כל מנגנון שאנחנו סומכים עליו שישמור על המערכת שלנו בלתי שבירה ברגע האמת. אם, למשל, התקנו את המערכת שלנו על מספר Availability Zones והנחנו שאם אחד ייפול אז המערכת תמשיך לתפקד, אז בואו נפיל AZ אחד אחרי השני ונראה שזה אכן המצב.

אם, למשל, התקנו את המערכת שלנו ביותר מ-Region אחד והנחנו שאם Region ייפול אז המערכת תמשיך לתפקד, אז בואו נפיל Region ונראה שזה אכן המצב. אבל זה לא מספיק, היחידה אחראית גם על התשתיות (רשתות תקשורת, Data Centers, עננים ועוד) ולכן נדרש לעשות את אותו הדבר עם התשתיות. אם אנחנו מניחים שבמקרה של השבתת Data Center שלם נוכל להמשיך לספק שירות, אז בואו נשבית Data Center שלם ונראה שזה אכן המצב.

אם אנחנו מניחים שמפקדה מרכזית בצה”ל, המוזנת תקשורתית על ידי מספר סיבים אופטיים, תמשיך לתפקד גם אם חלק מהם ייפגעו, אז בואו ננתק אותם באופן יזום ונראה שזה אכן המצב. ואפשר להמשיך כך הלאה והלאה אך הרעיון ברור.

“הפתעה” בכל תרגול

וכך היה, הכל נבדק, נבחן ותורגל. בתחילה, באופן מאוד “נוח” לתשתיות ולמערכות, כזה שמכין אותן לנפילה. בהמשך בדקנו באופן פתאומי (כפי שקורה פעמים רבות בחיים האמיתיים) וללא הכנה מוקדמת. חשוב לציין: בכל תרגול כזה מונה מוביל לתרגול וקצין בקרה שיוודא שלא נגרם נזק מעבר לזה שנבדק; לכל תרגול בוצע תכנון קפדני והוא אושר על ידי המפקדים ומיטב המוחות בתחום; ובסיומו של כל תרגול כזה בוצע תחקיר סדור לשיפור וללמידה.

התרגילים הללו הוכיחו את עצמם. מחד ראינו תוצאות טובות, ומאידך כמעט בכל תרגול מצאנו “הפתעות” – איזה Service מיוחד שהותקן מכל מיני סיבות רק על AZ בודד כך שאם דווקא הוא ייפול המערכת כולה תיפגע. כל “הפתעה” נבחנה ותוקנה, והמערכת תורגלה שוב על מנת לוודא שהפעם היא אכן אמידה ובלתי שבירה.

מעבר לתרומה הברורה מאליה להעלאת כשירות ומוכנות המערכות ושל היחידה כולה, הרווחנו עוד שלושה דברים משמעותיים נוספים.

הראשון נוגע למערכות הניטור והבקרה. חשיבותן בזיהוי מוקדם של תקלות ברורה, על ידי מערכת ניטור (בניגוד לדיווח של משתמשים למשל), נוכל להקדים לזהות תקלה מתפתחת, לטפל בה מוקדם יותר, ובשאיפה נחסוך מהמשתמשים להרגיש אותה בכלל. בכל תרחיש שבדקנו, דאגנו לבחון גם את מערכות הניטור והבקרה, ולוודא שהן יתריעו על תקלות בזמן. וכמו שכבר הבנתם, מיד לאחר שעשינו זאת אז גם בדקנו שכעת זה אכן כך.

הרווח השני עוסק במוכנות לתפעל את התשתיות והמערכות במצבי קיצון. באוקטובר 2021 חוותה Meta השבתה של כל השירותים שלה שמקורה היה ברשת ה-Backbone העולמית שלה. מכיוון שמטא גם תפעלה את כל היכולות שלה דרך אותה הרשת, השבתה שלה גרמה לקושי לטפל בתקלה ולהתארכות משמעותית של משך הטיפול. עלינו לא רק לדאוג לזמינות התשתיות והמערכות, אלא לוודא שבכל תקלה יהיו בידינו יכולות לטפל בה באופן מהיר ואפקטיבי. הבנה זו הוסיפה נדבך נוסף – פיתוח סט כלים ושיטות שעמדו לרשותנו בבואנו לטפל בתקלות, כך שיכולנו לטפל בהן במהירות ובאפקטיביות רבה יותר מבעבר.

הרווח השלישי, ואולי המשמעותי מכולם, היה בהעלאת רמת המקצועיות ותחושת המסוגלות של האנשים. עצם הצורך לתכנן תרגילים כאלה לפרטי פרטים, ובמיוחד להתמודד עם התרחישים שתורגלו במהלכם, תרמה באופן משמעותי לרמה המקצועית של האנשים וליכולת שלהם להתמודד עם תקלות בהמשך.

על חשיבות הפעולה הרציפה של תשתיות ומערכות הדיגיטל והמידע לא נדרש להרחיב פה, אך אני מקווה שהצלחתי להדגיש את החשיבות של תרגול המנגנונים שנועדו להבטיח רציפות זו. התרגול לא רק מבטיח שנוכל לסמוך עליהם, אלא גם מביא איתו ערכים מוספים בהיבטים של מערכות הניטור והבקרה, פיתוח כלים ושיטות להתמודדות עם כשלים והעלאת הרמה המקצועית ותחושת המסוגלות של האנשים.

הכותב הוא תת-אלוף במיל’, שירת במגוון תפקידי טכנולוגיה והגנה בסייבר בצה”ל עד לתפקידי ראש מנהלת הטרנספורמציה הדיגיטלית הצה”לית ומפקד יחידת לוטם. כיום מחלק את זמנו בין ניהול עמותה ללא מטרות רווח המפתחת כלים טכנולוגיים למלחמה באנטישמיות, לבין תפקיד CTO in Residence ב-Vintage Investment Partners

No comments found.

משרות פתוחות

אולי פיספסת

Geektime INSIDER

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם