הלמה מתה?

זה היה פוסט שמאד אהבתי, בעיקר בגלל הכותרת המתחכמת שלו שהבטיחה למות ובמקום לדבר על בהמת משא דרום אמריקאית שיורקת, עסקה בכלי לשוני פופולרי לביצוע תחקירי RCA או Root Cause Analysis ובכן לא מזמן נתקלתי בציוץ הזה:

ג'ון אלפסו מציג כאן טיעון מרכזי אחד נגד שיטת חמשת הלמות כי הרבה פעמים, כך הוא טוען, ה"למה" מתורגמת מהר מאד ל"מי" ואם אנחנו, כמו שאנחנו טוענים, לא מחפשים אשמים אלא מחפשים ללמוד ולהתפתח הרי ה"מי" לא יקדם אותנו לשם ובמקום זאת כדי לנו לחפש את ה"איך", את התיאור של ההתרחשות ולא את ההסבר להתרחשות. ההסבר להתרחשות עשוי להיות מוטה על ידי נקודת מבטו של המסביר ואילו תיאור ההתרחשות אמור להיות ברור יותר.

חמשת הלמות, אלפסו ממשיך להסביר, היא שיטה שעשויה לספק לנו תחושה שגויה של הצלחה, היא עשויה לתת לנו את התחושה שהנה, עברנו חוליה אחרי חוליה בשרשרת האירועים, הגענו לשורש הבעיה וזהו, אנחנו בטוחים שזה לא יקרה לנו יותר. אבל לפעמים התחקיר הזה צר מדי, סוגר לנו את הדיון במקום לפתח אותו וככה אולי הצלחנו לספק את הדו"ח שלנו על מה שקרה אבל לא באמת פתרנו את הבעיה.

מי שרוצה להרחיב בקריאה מוזמן לקרוא את הפוסט המלא כאן אבל אני חושב שאנחנו יכולים לתת דוגמא שאולי תסייע להבין את הרעיון. האייטם הזה בווירד מדבר על הקשר בין התרסקות מטוסים במלחמת העולם השניה ובין מחשבי מקינטוש ולדעתי הוא יכול לתת לנו דוגמא ליתרון ה"איך" על ה"למה" כי כל עוד חיל האויר האמריקאי חקר את התרסקויות מטוסי ה B-17 שלו באמצעות "למה" המטוסים המשיכו להתרסק למרות שבוצעו תחקירים ונותחו ניתוחים. זה היה מטוס נהדר שטייסים וצוותים מאד אהבו, המטוס היה מאד אמין והציל את הצוותים שלו מהרבה מאד מתקפות אש נגד מטוסים, המטוסים האלו שרדו את התופת של ההגנה האוירית מעל אירופה אבל כמה מאות מטוסים כאלו התרסקו בסופו של דבר בזמן הנחיתה. מטוסים סופר אמינים, ששורדים את התקריות הקשות ביותר ובסופו של דבר מתרסקים על הקרקע בזמן נחיתה בגלל מה שנראה בכל התחקירים כמו טעות אנוש זה מאד מוזר ויותר מזה, זה לא יעיל. "טעות טייס" היא משהו שקשה ללמוד ממנו וקשה להפיק ממסקנה כזו Action Items. מדובר בטייסים מנוסים, שהביאו את המטוס לקצה היכולת שלו, שטסו אל היעדים הכי קשים והכי מסוכנים והחזירו את המטוס והצוות הביתה בשלום ורק בנחיתה פתאום הפכו להיות טייסים גרועים שלא מסוגלים להנחית את המטוס? רק כשהלכו לבדוק את "איך" בעצם הבינו שיש בעיה מאד פשוטה שאפשר לפתור, הידית לפתוח את כני הנחיתה והידית לפתוח מדפים היו זהות וקרובות אחת לשניה, הטייסים פתחו את הידית הלא נכונה ולא הבינו שאין להם כני נחיתה עם שהיה מאוחר מדי ולפעמים גם אחרי שהתרסקו לא הבינו זאת. זו היתה אמנם "טעות טייס" אבל לא כזו שהטייס יכל היה למנוע כי מבחינתו הוא אכן הוריד את כני הנחיתה בזמן.

שינוי בצורת הידיות צמצם משמעותית את האופציה לקיומה של טעות טייס שכזו וזו תוצאה הרבה יותר משמעותית מהענשתו של טייס זה או אחר על "טעות" שעשה במהלך נחיתה.

אגב, כקוריוז, טעויות תכנוניות כאלו אינן אירוע נדיר. גם במערכות יקרות ומושקעות כמו מטוסים. באותה התקופה בערך, בעשור וחצי שקדמו למלחמת העולם השניה ובעשור לאחריה, חיל האויר האמריקאי התמודד עם בעיה דומה אך שונה. מטוסי ה B-17 שהתרסקו בנחיתה אבל היו להם הרבה מאד מטוסים אחרים שנראה היה שפשוט נופלים מהשמים ומסתבר שכשתכננו את המטוסים, את תאי הטייס, תכננו אותם עבור "הטייס הממוצע" ובמציאות פשוט לא היה דבר כזה, אף טייס לא עמד בקריטריונים של "טייס ממוצע" בגובה, באורך הידיים, ברוחב הכתפיים, תא הטייס שתוכנן להיות נוח לכולם לא היה נוח לאף אחד.

דיון כזה, על האיך במקום הלמה, יכול להביא לשינוי ארגוני של ממש ולסייע ביצירה של "תרבות צודקת" כמו שקורא לזה סידני דקר, תרבות ארגונית שרותמת את כל העובדים בארגון אל מטרה משותפת.

דקר עוסק המון בנושא של בטיחות בארגונים ותרבות צודקת בה לכל אחד יש את הכוח להצביע על ליקויים, לכל אחד ניתנת הלגיטימציה לפעול לתיקון ליקויים ולכל אחד ניתן גיבוי בעת התמודדות עם אירוע כשל היא תרבות שמאפשרת לארגונים באמת להיות בטוחים ויציבים יותר ולא רק ליצור מצג שווא של בטיחות.

הפוסט הזה לא פושט מושלם, הוא פוסט של התחלת דיון שאני לא מבין בעצמי עד הסוף על שינוי בתפיסת ההתאוששות מאסון בעולמות שלנו, עולמות ה IT.

זה מתגלגל לי בראש מאז שראיתי את הציוץ הזה של ג'אסטין וורן:

והניסוח הזה שלו, Always Be Falling מסקרן אותי אבל אני לא מצליח לשים את האצבע על המקור של הניסוח הזה ועל הכוונה המלאה שלו. בתשובה לשאלה שלי, הוא מפנה לחומר קריאה, גם לזה של סידני דקר, ובשורה תחתונה מפנה לחפש חומר על Resilient Design ולכאן ננסה לחזור לדעתי בפוסט הבא כי כאן אני חושב נמצאת הפואנטה, כאן עוברים מהרוח לחומר וכאן יורדים מהפילוסופיה של תכנון שריד חדש אל הארכיטקטורה של MS SQL שמוגדר עם Always ON מעל שרתים של VMware שמוגדרים עם HA מעל מערכות אחסון יתירות עם רפליקציה והכל ארוז בפתרון סטייל Continuity שיודע לוודא עבורנו את הקונפיגורציה של כל ה Stack ארוז ביחד ומוגדר נכון.

מחכה לשמוע מה דעתכם,

תשטפו ידיים ואם לצטט את דניאל פאר באמירה קלאסית שנשארה רלוונטית גם בימי קורונה, שמרו מרחק, שנוכל להיפגש!

ניר מליק

רעידת אדמה באיטליה – מחשבות על DRP

רעידת אדמה באיטליה – מחשבות על DRP

עבדכם הנאמן בילה לאחרונה בחופשה משפחתית בדרום איטליה ולכן לא עודכן הבלוג, עמכם הסליחה.

שלוש המלצות מסוג "אל תעשה" לגבי טיול בחבל ארץ יפה זה:

  1. מומלץ בחום לשכור את הרכב הכי קטן שאפשר, מרבית הכבישים הרריים, צרים ומפותלים אך חשובה מהנהיגה עצמה היא הגמישות, ברכב גדול תקשו על עצמכם סתם לעצור בצד הדרך לצלם משהו, "לגנוב" חניה לרגע בשולי הכפר או להשתחל לחניה מחוץ לחניונים המסודרים הנדירים. אני טעיתי בגדול בנושא זה ושכרתי רכב מסוג פיאט סקודו בן תשעה מקומות ישיבה, מנוע דיזל ותיבת הילוכים ידנית. אתגר מיותר למי שלא חייב את כל המושבים!
  2. למרות שקראתי מאות עמודים כהכנה לטיול, לא הבנתי את המשמעות של עומס בשיא עונת התיירות עד שהגעתי לעירה ראבלו לגלות שהעירה כולה סגורה. פעמיים. פעמיים נסענו במשך שעה וחצי לגלות שאין כניסה לעירה כלל יותר בגלל עומס תיירים. שיא העונה יכולה להיות תקופה מאתגרת לתייר גם בלונדון או בפריז אבל כזה דבר עוד לא ראיתי.
  3. טיילנו עם ילדים בני 4 עד 12. כולנו נהנינו אבל זה אזור פחות מתאים למשפחה בעלת ילדים קטנים. בילינו יום שלם בבריכה של הבית ששכרנו ויום שלם בפארק מים קטן ונחמד אבל באופן כללי האזור אינו משופע אטרקציות שמתאימות לילדים.

italy

העיר נאפולי, העיר הגדולה ביותר באזור, שוכנת למרגלות הר הוזוביוס. מעברו השני של ההר שכנה העיר פומפי שחרבה בהתפרצות ההר בשנת 79 לספירה. במשך השהות שלנו באיליה פקדה את המדינה רעידת אדמה קשה שהחריבה שכונות שלמות והותירה כמעט שלוש מאות הרוגים. לשמחתנו לא הרגשנו דבר היות והיינו רחוקים מהאזור. באופן מקרי לחלוטין, הפגישה הראשונה שתוכננה לי עם חזרתי לארץ עסקה בהקמת אתר DR למפעל באירופה.

פוסט קודם על מטרו-קלאסטר, טיול בדרום איטליה סביב  הר הגעש וזוביוס שהחריב את העיר פומפי, רעידת אדמה ופגישה על DR, הקארמה עצמה הכתיבה לי את נושא הפוסט הפעם!

באופן כללי נראה כאילו מרבית הלקוחות הישראלים ניגשים אל נושא ההמשכיות העסקית בכיוון ההפוך ומתייחסים אל פרויקט DR כאילו מדובר בשיגעון של מנהל המחשוב הארגוני ולא בנושא קריטי ורגיש מאין כמוהו להנהלת החברה, לצד העסקי של הבניין אם תירצו ולא לצד הטכני שלו.

אחד הפרויקטים הראשונים שניהלתי היה פרויקט וירטואליזציה של שרתים בחברה מוכרת בתחום מוצרי האפייה ובתי הקפה בארץ. אותו לקוח נתקל בבעיה במערכת ניהול המלאים הראשית בארגון בתזמון אומלל, ערב חג החנוכה.

לכאורה, מידת הנזק שנגרמה לארגון הייתה נמוכה מאד, מאפיה יכולה לעבוד גם בלי מערכת ניהול מלאים. בית קפה יכול להמשיך ולהגיש קפה ולדווח מאוחר יותר כמה קפה הוגש. למעשה, מידת הנזק העקיף שנגרם לארגון הייתה די גדולה, נכון אמנם שלקוחות עדיין יכלו לרכוש סופגניות אבל לא יכלו לקבל את ההזמנה הספציפית אותה ביצעו מבעוד מועד. הלקוחות חוו חווית שירות שלילית וקשה לתקן חוויות שכאלו. במקרה זה, מנכ"ל החברה היה היוזם מאחורי שדרוג תשתיות המחשוב בארגון על מנת לצמצם פגישה עתידית שכזו לאחר שהבין את מידת הנזק העקיף.

תהליך נכון וסדור של אפיון פרוטוקול התאוששות מאסון והמשכיות עסקית בחברה צריך להתחיל מהצד העסקי וזאת על מנת להגדיר אילו שירותים הם קריטיים לקיום החברה, אילו שירותים קריטיים ליכולת של החברה לעשות עסקים, אילו שירותים חשובים לפעילות רציפה ואילו שירותים יכולים להתקיים על בסיס nice to have בלבד. פעמים רבות כאשר אנשי המחשוב הם הכוח המניע מאחורי פרויקט DR, מוגדרת רמת SLA אחת בלבד שכן אנשי המחשוב לא יכולים או לא רוצים לקחת אחריות על הגדרת שירותים שלמים כלא חיוניים להתאוששות או לחלופין מגדירים מערכת כחיונית רק על פי כמות הרעש שהיא מייצרת בעבודה היום-יומית.

דוגמא נפוצה למערכת המייצרת רעש אך לא בהכרח עומדת ראשונה ברמת ה SLA במקרה אסון. כולנו עובדים באופן יום-יומי מול מערכת הדוא"ל הארגונית וכולנו רגילים להתייחס ל"מייל של המנכ"ל" כאילו הוא הדבר הכי חשוב בארגון. בחלק מהארגונים קביעה זו היא גם קביעה נכונה אבל אם מדובר בארגון תעשייה המייצר מוצר, האם מערכת הדוא"ל עומדת לפני מערכת בקרת היצור או מערכת ניהול המלאים?

להלן רשימה של שאלות לדוגמא שיש לספק עבורן מענה על מנת לייצר באופן נכון את רמות ה SLA בארגון:

  1. האם הארגון מסוגל לסבול השבתה חלקית של מערכות המידע? מה הנזק הכספי שיגרם לארגון מהשבתה שכזו?
  2. האם הארגון מסוגל לסבול השבתה מלאה של מערכות המידע? מה הנזק הכספי שיגרם לארגון מהשבתה שכזו?
  3. האם קיימת אפליקציה קריטית שבלעדיה רוב הפעילות העסקית בארגון אינה יכולה להתקיים? מה הנזק הכספי שיגרם לארגון מהשבתה שכזו?
  4. האם הארגון מסוגל לסבול השבתה חלקית של אפליקציה קריטית? מה הנזק הכספי שיגרם לארגון מהשבתה שכזו?
  5. מה משך ההשבתה המקסימלי שהארגון מסוגל לספוג מבלי להיפגע מבחינה עסקית? מה הנזק הכספי שיגרם לארגון בחריגה מפרק הזמן המוגדר?
  6. האם קיימת אפליקציה בארגון שבלעדיה יגרם נזק תדמיתי לארגון מצד הלקוחות? הספקים? בעלי המניות? הרגולטורים הרלוונטיים?

תחום נוסף ממנו לפעמים מתעלמים הוא מודל האיומים. כשאנחנו מקימים פתרון DR עבור מערכות המחשוב שלנו, מפני מה בעצם אנחנו מתגוננים ומה מוגדר אסון בתהליך ה"התאוששות מאסון" שלנו. האם הפסקת חשמל בחדר השרתים היא "אסון"? אם אתה ספק שירותי ענן כנראה שכן. האם טיל אירני הוא אסון רלוונטי? האם יהיה מי שישלח מיילים לאחר נפילת טיל שכזה? האם לאחר רעידת אדמה יישאר לנו קו ייצור בכלל ואם לוקח 5 חודשים להקים מחדש את קו היצור האם יש באמת צורך להדליק את מערכת בקרת היצור בתוך שעה?

הפוסט הזה הוא לא פוסט מאד טכנולוגי. בהינתן תקציב מספק, הטכנולוגיה יודעת לספק מענה כמעט לכל מתאר ותרחיש. מגיבוי לקלטות ושחזור לאחר רכישה של חומרה חדשה ועד רפליקציה בזמן אמת בין שני "עננים" שונים בפריסה גלובאלית, האתגר האמיתי הוא הדיון העסקי בו כולנו כאנשי IT  צריכים להשתפר. דיון נכון יסייע לנו להקים פתרון נכון עבור העסק שלנו, פתרון רלוונטי שעונה על הצרכים האמיתיים. אני חושב שכולנו נופתע גם לגלות שאם מנהלים דיון שכזה, הנהלת הארגון נרתמת לתהליך ומספקת תקציבים, כוח ועדיפויות, הפרויקט הופך מתחביב של IT לצורך ארגוני- עסקי.

שלכם,

ניר מליק