9-1-1, BCP & GCP

Disney+ 9-1-1 זה בית ספר לBCP?

בזמן האחרון אני צופה בדיסני+ בסדרת מכבי אש בשם 9-1-1,הגעתי אליה דרך קליפים קצרים בyoutube shorts ומשחקת בה ג'ניפר לאב היואיט האהובה משולחן לחמישה (כולנו זקנים מספיק כאן בשביל לזכור את שרה משולחן לחמישה?)

זו לא סדרה מאד טובה, השחקנים טובים והיא עוסקת הרבה מאד הנושאי עומק כמו אובדן, אובדנות, מערכות יחסים והתמכרויות אבל היא מאד מאד אמריקאית, מאד סכרינית, ובכל אופן היא מהנה ועוזרת לנקות את הראש בסוף היום.

אז זהירות ספויילר אם אתם צופים כמוני 😊

בפוסט הקודם סיפרתי לכם שהתארחתי בפודקסט ובפודקסט דיברנו הרבה על אישתי אבל גם על כל מני דברים אחרים והעמקנו קצת בענייני גיבוי, שחזור והתאוששות מאסון. בפרק 14 של העונה השניה של 9-1-1, מוקד החירום קורס לגמרי, רשת המחשבים נופלת, אין אפליקציה לניהול משימות, אין איתור מיקום, מה עושים, יש לנו עיר להציל?!

אז נתתי מראש דיסקליימר שהסדרה מאד אמריקאית והכל בה אידיאלי, כמובן שהתרחישים לא מציאותיים או לא מציאותיים עד הסוף, עכישו שהזכרנו את זה, איזה כיף היה לראות את תוכנית ה BCP נכנסת לפעולה, נשיקת שף! עם זיהוי אופי האירוע, המנהלים נכנסו לפעולה. ראשית, נשלפו חוברות ההדרכה לא צריך לאלתר יש לנו תוכנית הנה היא כאן זמינה לנגד עיננו. שנית, למרות הלחץ בואו נעצור שניה וניתן תדריך קצר לעובדים, זה מה שאנחנו יודעים שקרה, זה מה שאנחנו מצפים מכם לעשות, זה מה שאנחנו מתכננים לעשות להמשך, תיאום ציפיות ויצירת תמונת מצב משותפת. שלישית, לצד הנהלים הכתובים יש לנו סט כלים מוכן, הנה העגלה עם מכשירי הקשר, הנה חוברת המפות וככה משתמשים בה, הנה המגנטים לסימון מיקומים ידנית על המפה. רביעית, בואו נישאר עירניים וגמישים מספיק כדי לראות מה עובד בפועל ומה לא, אתם שניכם שם בצד תעברו בבקשה מהסוף להתחלה ותראו שאין לנו כפילויות של משימות כי אנחנו רגילים לקבל על זה התראות אוטומטיות ויותר מתמיד חבל לנו לבזבז משאבים.

הפרק מגדיל ומראה לנו גם מה יחידות השטח עושות, מרגע שצוות הכיבוי שאנחנו עוקבים אחריו בסדרה לומד שהמוקד מושבת, הוא יוצא לשטח לסרוק באופן יזום כדי לנסות ולקצר את זמני התגובה, לחפות על זה שהמוקד "עיוור" ובאותו הזמן, צ'ימני הכבאי האהוב שמחלים בבית מפציעה משמש סט עיניים נוסף, הוא צופה בחדשות ויודע ליצור קשר במעגל קצר עם הצוות שלו בשטח כדי לתת עדכונים ואפילו ליצור קשר עם צוותים נוספים ולהכווין אותם לאירועים גדולים שהמוקד עדיין אינו מודע אליהם.

בעולם שלי המשכיות עסקית והתאששות מאסון מתמקדים כמובן בתהליכי IT, רפליקציה וכאלו, מעניין וחשוב לזכור מה שאמרה לי פעם, לפני הרבה שנים, לקוחה באיזור התעשיה בכפר סבא, המשכיות עסקית זה גם מי מזמין רכבים מושכרים כי החניון נשרף, מי מבקר פצועים, זה לא רק להקפיץ שרתים לאתר משני והופה כולם שמחים. לצערי בשנה האחרונה יצא לרבים מאיתנו לגלות כמה היא צדקה.

ענן חדש בא לשכונה

אני מרגיש שאני צריך לקצר קצת את זמני התגובה שלי אבל החיים לא תמיד נותנים לי את הבחירה הזו, בכל מקרה לפני שבועיים נערך בוגאס הכנס הטכני השנתי של גוגל, google cloud next,  ובמסגרתו הוכרזו שרתי Bare Metal חדשים. כן, גם אני שמתי לב שגםהכנס הטכני השנתי שלנו בנוטניקס נקרא .next אבל היי אני לא בוחר את השמות ואגב לא מאוחר להרשם אליו, הוא בחודש הבא בברצלונה!

ההכרזה הזו של GCP כוללת בתוכה גם הכרזה על השת"פ הבא של גוגל ושלנו ובקרוב נוכל להשתמש בשרתי ה bare metal החדשים על מנת לספק עליהם את שירות ה NC2 שלנו ולהשלים את "שלושת הגדולים". אני לא חושב שיצא לי לכתוב על NC2 בצורה מסודרת כאן עד היום אז שווה להזכיר, NC2 זו היכולת לפרוס את כלל שכבת התוכנה של Nutanix על גבי שרתים יעודיים בסביבת הענן הנבחרת על ידי הלקוח, AWS, Azure וכאמור בקרוב מאד GCP. ההטמעה נעשית בתוך החשבון של הלקוח, בתוך הפרוייקט ותלוי בבחירת הלקוח יכולה להעשות בתוך ה VPC/VNET של הלקוח. את הרישוי הנדרש ניתן לרכוש ישירות דרך ה App Store/Market Place או לחלופין דרך שותף הנוטקניס האהוב עליכם במודל Bring Your Own ומרבית הרשיונות הקיימים הם Portable כלומר ניתן לשמר השקעה ו"לקחת" רשיונות קיימים איתכם לענן.

NC2 מאפשר את העליה המהירה ביותר לענן הציבורי מכל פתרון אחר, אותם כלים, אותן יכולות, אותם נהלים והגדרות, רק בענן ובקרוב מאד בכל העננים, זו התשתית האמיתית ל Hybrid Multi Cloud כולל כמובן לנייד עומסי עבודה באופן מהיר בין הענן הפרטי והענן הציבורי, התממשקות לסביבות Object שונות לטובת Tiering או DR, ובמרבית המקרים, חסכון עלויות משמעותי בהשוואה בין NC2  ובין IaaS Native.

הסיבה לחסכון הכספי מול EC2  למשל או Compute Engines, היא הגמישות והדחיסות (Density). כשאנחנו צורכים שירותי מחשבו במודל IaaS אנחנו כפופים לגודל ה T Shirt שהספקית בחרה עבורנו והרבה פעמים נאלצים לשלם על זיכרון כדי לקבל מעבד מהיר, על מעבד מהיר כדי לקבל עוד נפח אחסון וכו'. בתשתיות NC2 אנחנו יכולים להגדיר מכונות וירטואליות בהתאם לצרוך האמיתי שלנו ועל ידי זה לבטל את מה שנקרא micro waste, לבטל את כל העודפים האלו שאנחנו משלמים עליהם סתם. איפה שעדיין יש עודפים כאלו, במצב Native אין מה לעשות איתם, ובמודל של NC2 זה "ספייר" שנשאר שלנו במערכת ואפשר באופן דינאמי להקצות אותו למערכות אחרות.

NC2 תומך במכונות וירטאליות אבל כאמור זו כל פלטפורמת התוכנה שלנו, רק בענן, כלומר גם קונטיינרים, שירותי קבצים, שירותי אובייקטים, סנפשוטים, אבטחת מידע, Audit, הכל כל.

כמו שאני רואה את זה, זה פתרון הבסיס לתפישה של Cloud Smart. ראינו כל מיני פתרונות אחרים שמנסים לעשות את זה אבל הם חלקיים, כי הם מטפלים רק ה Data, או רק ב Compute, או שצריך לרכוש רישוי נפרד עבורם או כלי ניהול אחר או שהם לא משמרים את ה Policy הארגוני, כל מיני מגבלות שלא קיימות ה NC2.

עוד בחזית העננים, אמזון הכריזה לאחרונה שאחרי שמונה שנים היא סוגרת את שירות ה Snowmobile, משאיות הענק המיועדות להעברת כמויות נתונים גדולות אל הענן. גם הם חושבים שיש היום אופציות יעילות יותר להעברת נתונים מהבית לענן וחזרה.

מי שרוצה ללמוד עוד יכול להתנסות בעצמו במעבדה וירטואלית כאן או לצפות בסדרת הסרטונים כאן וכמובן מוזמנים לדבר איתי!

פסח מורכב

בנימה אישית קצת, זו שנה גרועה מאד, אנחנו תמיד עושים סדר גדול ויותר מתמיד הבית שלנו פתוח למי שרוצה להצטרף, מוזמנים לפנות אלי בפרטי אנחנו לא שואלים שאלות רק תגידו מראש שנסדר לכם מקום!  

בברכת בשורות טובות,

שישובו כל החטופים והחטופות במהרה אמן וכל החיילים והחיילות בריאים ושלמים!

שלכם כרגיל,

ניר מליק

InfiniBox V4

InfiniBox V4

אחרי חודשים של עבודה מאומצת, השקנו אתמול באופן רשמי את גרסה 4 שלנו. היות ויש לנו רק מודל רישוי אחד וכל הרישוי כלול לכל הלקוחות, כולם יכולים לשדרג גרסה וליהנות מהפיצ'רים החדשים הכלולים בה ללא כל תוספת תשלום.

רפליקציה סינכרונית

בשוק האמריקאי, המרחקים הם כאלו שרפליקציה סינכרונית פחות רלוונטית להם בדרך כלל כי לא משנה כמה הרפליקציה שלך תהיה איכותית, אי אפשר להתגבר על הגיאוגרפיה שמכתיבה את תוספת ה Latency עד שמקבלים אישור על הכתיבה מהצד המרוחק. גם אצלנו, כאן, בשוק הישראלי, לא משתגעים על רפליקציה סינכרונית, הרגולציה לא דורשת את זה בדרך כלל ועלויות קווי תקשורת עדיין יחסית גבוהות.

האירופים לעומת זה, משתגעים על זה, הרגולציה קשוחה, קווי התקשורת איכותיים ויחסית נגישים והמרחקים הגיוניים ולכבודם גרסה 4 כוללת רפליקציה סינכרונית מבוססת IP המתווספת לרפליקציה א-סינכרונית הקיימת.

נזכיר שהרפליקציה הא-סינכרונית שלנו מאפשרת להגיע ל RPO של 4 שניות ולכן היכולת הזו מספקת את מרבית הלקוחות שלנו.

אחד הדברים המגניבים באמת זה היכולת לעבור באופן חלק בין סוגי הרפליקציה. אם התחלנו עם רפליקציה א-סינכרונית ועכשיו אנחנו נדרשים לרפליקציה סינכרונית אפשר פשוט להעלות את רמת הרפליקציה תוך כדי עבודה, החלק העוד יותר מגניב זה שאם אנחנו משתמשים ברפליקציה סינכרונית ונניח יש בעיה עם הקו שבגללה לא ניתן ליישם רפליקציה סינכרונית באופן תקין, המערכת תעבור באופן אוטומטי לרפליקציה א-סינכרונית וברגע שהבעיה בו תסודר, המערכת תעלה את התדירות של הרפליקציה הא-סינכרונית עד שנגיע למצב בו ניתן יהיה לחזור לרפליקציה סינכרונית. די מגניב לא?

משימות הרפליקציה מנוהלת DRAM אל DRAM וכתבנו את משימות ה Commit למערכת המרוחקת ככה שהן כל כך קצרות ומהירות עד שאם נניח מבצעים רפליקציה בין שתי מערוכת באותו חדר שרתים או באותו הקמפוס, כלומר אם הגיאוגרפיה לא מתערבת, ניתן לבצע רפליקציה סינכרונית ועדיין להבטיח זמני תגובה של פחות ממילי-שניה!

changereplication

QoS

הוספנו יכולת QoS שתאפשר להגביל את דרישות הביצועים של Pool, Volume או File System. ניתן לקבוע את המדיניות במדד של IOps או במדד של Throughput ולאפשר Burst במידת הצורך. אחד הסגמנטים שאנחנו מאד חזקים בו הוא סגמנט ספקיות השירות שמאד אוהבות את מודל ה Capacity on Demand שלנו ואלו הלקוחות שדרשו את היכולת הזו. רוב לקוחות ה IT הכלליים לא צריכים להגביל כלום כי כמות משאבי הביצועים שעומדת לרשותם בשימוש במערכת InfiniBox היא כזו שהם יכולים להרשות לכלל המשתמשים והמערכות לשאוב כמה משאבים שהם רוצים, הספקיות הן אלו שמעוניינות להגביל את המשתמשים כי אם לקוח משלם על SLA של נניח 10,000 IOps, המודל המסחרי של הספקיות הוא כזה שאין סיבה לתת לאותו לקוח 10,001 IOps גם אם התשתית מסוגלת לספק את זה בקלות.

treeQ

אנחנו מרחיבים את יכולות ה NAS שלנו והוספנו יכולת לקבוע Quota לכל תיקיה בנפרד.

 

מה זה גיבוי ומה הופך פתרון גיבוי לפתרון טוב

לאחרונה הגשנו הצעות ראשוניות לפתרון גיבוי ללקוח גדול שלנו, יש להם כיום מספר אתרים מסביב לעולם והם עושים כיום שימוש במספר פתרונות אחסון וגיבוי שונים.

במסגרת אפיון הפתרון ניהלנו כמה שיחות פנימיות על מה זה בעצם גיבוי או יותר נכון מה מבדיל בין יצירת העתקים של המידע ובין פתרון גיבוי טוב וחשבתי שכדאי לכתוב על זה משהו מסודר. אני כמובן לא עובד באף ארגון תקינה בינלאומי ודעתי אינה מכתיבה שום סטנדרטים מקובלים בתעשיה אבל ככה אני רואה את הדברים ואני תמיד שמח לשמוע את דעתכם אז אל תהססו.

 נתחיל בהגדרה מילונית, מה זה גיבוי?

על פי ויקיפדיה, "גיבוי מתייחס לעשיית עותקים ("גיבויים") של נתונים כך שאלו יכולים לשמש לשחזור המידע המקורי לאחר אירוע (פיזי או לוגי) הגורם לאובדן הנתונים המקוריים מאמצעי לאחסון נתונים בו הם הוחזקו.".

עשיית עותקים – פתרון גיבוי כולל בדרך כלל יותר מהעתק אחד של המידע. ככל שתדירות יצירת העותקים גדולה יותר, ומשך הזמן בו נשמרים ההעתקים ארוך יותר, כך הסיכוי למצוא ולשחזר את המידע הנדרש גבוה יותר.

של נתונים – פתרון גיבוי כולל בדרך כלל את היכולת לבחור אילו נתונים מגובים ובהתאם למדיניות הארגון לשמור את סוגי המידע השונים על פי הצורך (מידע פיננסי 7 שנים, מידע רפואי 90 שנים וכו')

לשחזור המידע המקורי – פתרון גיבוי כולל את האפשרות לשחזר את המידע בעת הצורך

לאחר אירוע –עותקי הגיבוי צריכים להיות זמינים לשחזור גם לאחר אירוע משמעותי כמו אובדן כלל המידע המקורי בשל כשל כללי של תשתיות המחשוב המקוריות

לא כל הגיבויים נולדו שווים?

אם ניתן לכל יצרני תוכנות הגיבוי את הקרדיט הבסיסי ונניח שהפתרון שלהם מסוגל ליצור העתק של המידע, לשמור עליו ולשחזר אותו כשצריך, מה בעצם מבדיל בין פתרון גיבוי לפתרון גיבוי טוב?

ראשית, כדרישת בסיס לדעתי לפתרון גיבוי ראוי לשמו, נדרש קטלוג. הקטלוג הוא אחד המבדילים העיקריים בין copy/paste מתוזמן ובין פתרון גיבוי טוב ויעיל שמאפשר למצוא את הגרסה הנכונה לשחזור מבין כלל ההעתקים הזמינים

שנית, גיבוי ושחזור פרטניים או היכולת לבחור באופן גרנולרי את מה מגבים, איך מגבים וחשוב מכך את מה משחזרים היא מבדל נוסף וחשוב, פתרון המחייב לשחזר שרת שלם פחות יעיל לשימוש יום-יומי מפתרון המאפשר לשחזר רק קובץ בודד מתוך השרת.

שלישית, גמישות, פתרון גיבוי טוב צריך לאפשר ליישם את המדיניות הנדרשת ללא מגבלה על המידע המקורי (שרת פיזי, שרת וירטואלי, שירות קבצים CIFS במערכת האחסון וכו') וללא מגבלה על יעד הגיבוי כלומר פתרון טוב מאפשר לגבות לקלטות, לדיסקים, לשירות ענן ציבורי וכל שילוב כזה שעונה על מדיניות הארגון. גם בשלב השחזור, לא כל המערכות זהות ביכולות שלהן, לא כולן מאפשרות לשחזר ליעד שיאנו דומה מהמקור כלומר, למשל, לא כל פתרון מאפשר לגבות שרת פיזי ולשחזר אותו אל תוך סביבה וירטואלית או לגבות סביבת קבצים ממערכת אחסון אחת ולשחזר אל מערכת אחסון מסוג אחר.

מה עוד יכול פתרון טוב לכלול?

 אחד הטרנדים המובילים היום בעולם הגיבוי וניהול המידע הוא copy data management. אם אנחנו מיישמים סנפשוטים על מערכת האחסון הראשית שלנו על מנת לאפשר שחזור מהיר, יוצרים כמה העתקים של המידע שלנו על מנת לספק סביבות לפיתוח ובדיקות תקינות, מרפלקים את המידע שלנו לאתר משני לצרכי DR ומיישמים גיבויים לדיסק ולקלטות, הרי שמרבית המידע שאנחנו מחזיקים ומנהלים אינו מידע הייצור שלנו, המידע הפעיל שלנו, אלא העתקים של המידע שלנו. ההיגיון מאחורי הטרנד של copy data management הוא לאפשר לארגונים למנף את העתקי המידע ולהשתמש בהם. אם בעבר תוכנות גיבוי שמרו את המידע על גבי קלטת בלתי נגישה בפרוטוקול יעודי, סגור, הרי שפתרון גיבוי וניהול מידע מספק את היכולת להנגיש את המידע ישירות מיעד הגיבוי ובכך לקיים סביבות בדיקות, סביבות analytics, סביבות מעבדה וכל צורך אחר שאינו זקוק בהכרח לרמת ביצועים גבוהה אבל כן זקוק למידע מקורי ואמין.

בשבוע שעבר הוכרזה חבילת העדכונים SP6 עבור Commvault 11. אחד הכלים המעניינים ביותר שנכללו בחבילה זו תחת Early Release הוא כלי מיגרציה של מידע מגובה מתוכנת הגיבוי הקודמת אל תוך ObjectStore מקוטלג של Commvault. הכלי מספק מענה לאחד האתגרים הכי משמעותיים בפרויקטים של החלפת פתרון גיבוי, ברוב המקרים, הפתרון הכי נפוץ עד היום היה פשוט להשאיר בצד את פתרון הגיבוי הישן לצרכי שחזור עד סיום ה retention. אם הלקוח הוא לא חברה בת יומיים התהליך הזה יכולת לקחת כמה שנים טובות שבהן צריך להמשיך לתחזק את הפתרון הישן, גם אם בתחזוקה בסיסית ביותר, לצד הפתרון החדש, Commvault  מאפשרת עכשיו להתגבר על פרויקט המרת הקלטות הכואב ולבצע מעבר מלא, כולל ה retention אל פתרון הגיבוי החדש.

אז מה עושים עם זה בפועל?

מדיניות גיבוי נפוצה היא מדיניות 3-2-1: שלושה העתקים של המידע, על שני סוגי מדיה שונים, לפחות העתק אחד מחוץ לאתר. על פי מרבית המקורות מייחסים הצלם דיוויד קרוג היה הראשון לנסח את המדיניות הזו והוא מקבל את הקרדיט הזה אפילו במסמך ההמלצות של US-CERT  כך שכנראה יש בזה משהו. לאחרונה ראיתי הרחבה של החוקיות הזו בבלוג של Veeam. זה לא פוסט חדש אבל נתקלתי בו רק לאחרונה והוא מדבר על 3-2-1-0 כאשר 0 הוא 0 טעויות. היכולת לבצע ולידציה של הגיבוי שנקראת אצלם SureBackup מסייעת לוודא שמשימות הגיבוי אכן התבצעו באופן תקין וכי ההעתקים קריאים ונגישים.

גם בשימוש ב snap manager for exchange  למשל, ניתן לשלב במשימת הsnap shot הרצה של eseutil כדי לוודא שההעתק שנוצר תקין. כאן, כשאני מזכיר את NetApp, אני בעצם סוגר מעגל שלם אל ראשית הבלוג וכאן התחיל הדיון אותו הזכרתי, מהו גיבוי? האם סנפשוטים הם גיבוי? לא, לדעתי לא, לא לבד בכל אופן. סנפשוטים יכולים להיות חלק מפתרון הגיבוי, הם במרבית המקרים הדרך הכי מהירה ליצור העתק של המידע וכן, במרבית המקרים, גם הדרך הכי מהירה לשחזר מידע מהעתק קצר טווח אבל, לבדם, הם לא עונים על מה שמגדיר בעיני פתרון גיבוי טוב, הם לא מקטלגים את המידע, לא שומרים אותו על עוד סוג מדיה, לא מוציאים העתק מחוץ לאתר וכו'.

פתרון כמו Commvault, פתרון כמו Veeam ברמות הרישוי הגבוהות או פתרון IntelliSnap שהוא רכיב Commvault המשולב כ OEM במערכות NetApp FAS, פתרון כזה משתמש באופן מובנה ותחת מדיניות גיבוי ארגונית אחת ביכולות הסנפשוט או הרפליקציה של מערכת האחסון וזה כבר עונה להגדרות שפירטתי.

איפה נרשמים?

זה לא פוסט קל, למעשה הוא טיפה משעמם, בכל מקרה היה לי טיפה משעמם לכתוב אותו, אבל לדעתי הוא חשוב, או אם קצת להצטנע ולדייק , הנושא בו הוא עוסק חשוב, מנהלי מערכות מידע, מנמ"רים, סיס-אדמינים, חתומים על המידע של הארגון שלהם, הם האחראים עליו. אובדן מידע ללא יכולת לשחזר אותו בזמן בסביר חושף את הארגון במקרה הטוב לבזבוז זמן ומשאבים ובמקרה הקיצוני יכול לגרום לארגון לחדול מלהתקיים -בעולם בו מידע הופך להיות נכס או מטבע עובר לסוחר אובדן מידע יכול להיות אובדן  הביזנס כולו.

אשמח לשמוע מה דעתכם

שלכם,

ניר מליק