Data mobility – Mark Watney, Homeland security and Dolores Abernathy

בטיסה האחרונה הביתה ראיתי , בפעם המאה, את הסרט "להציל את מארק וואטני" או בשמו המקורי, The Martian. אחד הסרטים האהובים עלי. אחד האתגרים העומדים בפני הבוטנאי התותח התקוע על מאדים ואנשי NASA על כדור הארץ הוא נושא התקשורת.

עם 32 דקות דיליי בתקשורת ויכולת לענות על שאלות כן ולא בלבד, כמות המידע שניתן להעביר ולצבור קטנה מאד.

rurecieving

קרדיט תמלול

בשבוע שעבר אכלתי צהרים עם חבר שסיפר לי על מערכת די מדהימה לזיהוי ואיתור בני אדם. אחד האתגרים במבנה המערכת הוא הצורך להעלות תמונה מהמצלמה אל שלושה שירותי ענן שונים לניתוח ועיבוד ולהחזיר את התוצרים אל עמדת הבקרה בתוך פחות משתי דקות.  כתבתי פוסט נפרד עם איזה 600 מילים על המערכת הזו ואז נרדמתי תוך כדי אז מחקתי את הפוסט, חבל לשעמם אתכם עד כדי כך.

השבוע אני במרתון של העונה השנייה של ווסטוורלד. לדעתי הסדרה היא יצירת מופת ואני מאד מקווה שהיא לא תלך לאיבוד כמו שקרה לסדרה אבודים בזמנו. פתאום, באמצע פרק 4, זה קפץ לי לראש, הקשר בין מט דיימון, זיהוי פנים ודולורס היפה. צוות ה IT של דלוס לא דאגו לגיבוי Off Site כמו שצריך ובעצם כל עלילת העונה השנייה מתאפשרת רק בגלל שהם דחפו את כל המידע הקריטי שלהם אל הראש של אבא של דולורס, Old man Peter Abernathy, זו הסיבה היחידה שבעצם QA לא מכסחים את כל האתר בכוח (מעניין שדווקא QA הם כוח השיטור והאכיפה).

אחד האתגרים הכי גדולים בעולם ה IT היום הוא Data Mobility. הפיזיקה ולמעשה גם הגיאוגרפיה עדיין מערימות קשיים על היכול להזיז מידע בין נקודת היצירה שלו, נקודת העיבוד שלו ונקודת הצריכה שלו. בעולם ה IoT יש ניסיון להעביר לפחות חלק ממשימות העיבוד אל הקצה, אל המצלמות\רגשים עצמם כדי להתגבר על הצורך להעביר מידע מעשרות, מאות ולפעמים אלפי נקודות קצה אל מערכת מרכזית. בעולם מחשוב הענן לעומת זאת, הבעיה של Data Mobility הפתיעה חלק מהמשתמשים. נראה שבראשית ימי הענן אף אחד לא חשב שיום אחד יהיה צורך לצאת מהענן או לעבור בין ענן אחד לשני או אפילו, כמו שהזכרתי בנוגע למערכת זיהוי הפנים, לבצע תהליך שכולל שלושה ספקי ענן שונים בו זמנית.

כשאנחנו מתחברים אל מערכת הניהול שלנו באמזון למשל, אנחנו יכולים להקים כמה עשרות שרתים כמה קליקים של עכבר. בעולמות של קונטיינרים אנחנו יודעים להרים כמה אלפי קונטיינרים בכמה שורות פקודה. מחשוב, Compute, בענן זה בדרך כלל באמת קל וזריז כמו שמספרים לנו. אבל מידע זה אחרת. כמה זמן ייקח להעביר 10 טרה אל הסביבה שהקמת באמזון? כמה זמן ייקח להעביר 100 טרה? כמה זמן ייקח להעביר פטה? כמה יעלה לכם להעביר 350 טרה מאמזון אל גוגל? כמה יעלה לכם להעביר 200 טרה מאז'ור אל חדר השרתים שלכם בחזרה? אתם יודעים בכלל איך לעשות זה?

INFINIDAT Neutrix

פתרון Neutrix שהשקנו לא מזמן מגשר על חלק מהפערים האלו, מדובר על תשתיות שלנו, בבעלות וניהול שלנו, המקושרות בקווי תקשורת מהירים ישירות אל תשתיות המחשוב של אמזון, גוגל ומיקרוסופט. אנחנו מאפשרים ללקוחות להשתמש כלי הרפליקציה המובנים במערכות האחסון שלנו כדי להזיז מידע מחדר השרתים אל הענן ובחזרה ומרגע שהמידע נמצא על גבי התשתית שלנו, ניתן להציג אותו אל תשתית המחשוב של ספק הענן שבחרנו וגם ליותר מתשתית מחשוב אחת בו זמנית.

בגלל שמדובר בתשתית שלנו, אנחנו עדיין מסוגלים להבטיח ללקוחות זמינות ברמה של שבע תשיעיות לעומת ה SLA המגוחך שספקיות הענן מציעות באופן מובנה. שימו לב למשל שב AWS לא מבטיחים מעל רמת זמינות של 4 תשיעיות:

AWS SLA

ואותו הדבר גם ב Azure:

azure sla

בנוסף, אנחנו מספקים ביצועים טובים יותר מכל דיסק SSD שספקית הענן מציעה. קחו למשל שוב את אמזון שמבטיחה שבתנאים טובים עם רוח גבית דיסקים ברמת שירות SSD io1 יקבלו Latency של מילי שניות בודדות, אלו זמני תגובה מאד מרשימים עבור מערכות מבוססות דיסקים של לפני 5 שנים ולא למערכות SSD ברמה הכי גבוה שיש.

aws latency

בשורה התחתונה אנחנו גם מציעים את כל זה בעלות חודשית נמוכה יותר ממה שמשלמים עבור דיסק SSD בענן ככה שהלקוח מקבל הרבה הרבה יותר ומשלם פחות. דברו איתי!

אני יודע שזה לא הפוסט הכי מצחיק שיצא לי עד עכשיו אז למי שיבקש יפה אשלח כפיצוי סרטון שלי רוקד על הבר בקלאב-מד גרגולימאנו מסגרת טיול אנפינידט ישראל בשבוע שעבר, יאסו!

grego

שלכם כרגיל,

ניר מליק

 

מודעות פרסומת

RPO Zero from downunder

RPO Zero from downunder

הפוסט הקודם נכתב מיפן, התחנה הראשונה בסיבוב של שבועיים שכללו את טוקיו, סידני, מלבורן ובריסביין. הנסיעה כולה תוכננה סביב כנס גרטנר בסידני (השם המלא של האירוע הוא IT Infrastructure, Operations Management and Data Center Summit אבל אף אחד לא משתמש בו) במסגרתו הרציתי על הפתרונות החדשים שהשקנו לאחרונה ביניהם דגם חדש למערכת האחסון הראשית שלנו, F6212 המספקת מעל 4PB נטו בארון אחד, מערכת ייעודית לגיבוי, אותה הזכרתי בקצרה בפוסט קודם אבל מאז הוכרזה רשמית וקיבלה את השם InfiniGuard, פתרון אחסון סמוך-ענן שנקרא Neutrix שאפרט עליו בפעם הבאה והפתרון עליו אני רוצה לפרט קצת היום, פתרון רפליקציה המספק RPO-0 ללא תלות במרחק או רוחב פס בשם InfiniSync.

 

אני רוצה להרחיב דווקא על הפתרון הזה כי הוא היה הכוכב בשיחות עם שותפים ולקוחות ביפן ובאוסטרליה, הגיאוגרפיה הייחודית של יפן (שרשרת איים געשיים על שבר טקטוני) ושל אוסטרליה (מרחקים אדירים) גורמים לפתרון ייחודי זה להיות סופר רלוונטי בניגוד למדינות אירופה כמו למשל לגרמניה בן התשתיות איכותיות וזולות והמרחקים קצרים באופן יחסי.

RPO או Recovery Point Objective מגדיר את הנקודה בזמן אליה אנחנו מוכנים לחזור במקרה של כשל או במילים אחרות, כמה מידע אנחנו מוכנים לאבד במקרה כשל. עבור מרבית הארגונים בעולם, אובדן כלל המידע הנוצר בשעה האחרונה, יום עבודה אחרון, אפילו אולי השבוע האחרון יסתכם בכאב ראש ואולי באובדן עסקה או לקוח אבל בדרך כלל לא יעמיד את המשך קיומו של הארגון כגוף עסקי מתפקד בסכנה. ישנם ארגונים אחרים, לעומת זאת, בהם אובדן מידע יגרום לנזק כה נרחב עד כי המשך קיומו של העסק כעסק חי יעמוד בסכנה. זה יכול להיות נזק ישיר, נזק עקיף ועכשיו ערב כניסת GDPR לתוקף יותר מתמיד, נזק רגולטורי.

ארגונים אלו, בדרך כלל בנקים, חברות ביטוח, בתי חולים וכו' משקיעים הון עתק על מנת לוודא שכלל המידע המאוחסן אצלם מגובה ומאוחסן באופן שריד וחלק ניכר מהם משקיעים בתשתיות הנדרשות על מנת ליישם רפליקציה סינכרונית על מנת לוודא שכל בלוק ובלוק שנכתב על המערכות שלהם מרופלק באופן מידי גם אל מערכת נוספת או בדרך כלל אל אתר נוסף על מנת להגן על המידע הארגוני גם במקרה של אסון סביבתי גדול.

רפליקציה סינכרונית היא יכולת מובנית במרבית פתרונות האחסון בעולם היום אבל כל פתרונות הרפליקציה הסינכרונית נתקלים באותה בעיה בדיוק, הגיאוגרפיה. ברפליקציה סינכרונית, השרת שמבצע את הכתיבה אל מערכת האחסון מקבל ממנה אישור על הכתיבה רק לאחר סנכרון המידע גם אל המערכת המרוחקת ולפיכך, ככל שהמערכת המרוחקת אכן רחוקה יותר, פיזית, כך זמן התגובה לאישור הכתיבה לשרת עולה ולכן פתרונות רפליקציה סינכרונית מוגבלים במרחק בין האתרים וככלל אצבע מחשבים  על כל 100 קילומטר של מרחק פיזי יש להוסיף 1ms לזמן התגובה.

המגבלה הזו, מגבלת המרחק הפיזי, גרמה לארגונים להתפשר על רמת ההגנה או לחלופין ליצור טופולוגיות יקרות ומורכבות של שלושה אתרים, טופולוגיות שזכו לשם הכללי Bunker site. בטופולוגיה זו, מחזיק הלקוח שלושה אתרים, אתר ראשי, אתר משני קרוב יחסית אליו מתבצעת רפליקציה סינכרונית ואתר DR אמיתי, מרוחק, אליו מתבצעת רפליקציה א-סינכרונית. טופולוגיה זו מספקת הגנה על המידע בעלות כספית אדירה ומורכבות טכנית רבה.

פתרון InfiniSync בא לגשר על הפער בין הפשטות היחסית של רפליקציה א-סינכרונית ורמת ההגנה של רפליקציה סינכרונית. הוא בא להחליף את הצורף ב Bunker site ולאפשר ללקוח לבצע רפליקציה א-סינכרונית בלבד אל האתר המרוחק מבלי לוותר על רמת ההגנה.

מה שעשינו זה לבנות מערכת על בסיס העקרונות של קופסא שחורה, כמו במטוסים, מערכת מחשוב מוקשחת הכוללת דיסקים מקומיים מבוססי SSD, סוללה פנימית, אנטנת Wi-Fi ומודם סלולרי עצמאי. המערכת בנויה בתוך קופסא קשיחה העמידה, עטופה בציפוי מבודד המגן מפני אש וחום ומוכלת בתוך כלוב המגן מפני רעידות. המערכת נבדקה ומאושרת לעמידה בעומס משקל של 2.2 טון, אש ישירה בטמפרטורה של 945 מעלות מעל שעה, חום ישיר בטמפרטורה של 260 מעלות מעל חמש שעות, נפילה מגובה 5 מטר, רעידות של 50Hz ו 1.6G, אטומה למים בעומק עד 3 מטרים ואפילו חסינה מפני חדירה של מוט חודר (תמיד בסרטי אסונות מישהו משתפד על עמוד במקרה של רעידת אדמה או תאונה).

 

Showdown_in_Mega_City_Trinity_Death

הטופולוגיה של הפתרון עצמה היא מאד פשוטה, בין שתי מערכות האחסון של הלקוח מתבצעת רק רפליקציה א-סינכרונית ככה שאין שום תלות במרחק בין האתרים ואפילו איכות קו הרפליקציה יכולה להיות נמוכה. במקביל לביצוע הרפליקציה הא-סינכרונית מתבצעת רפליקציה סינכרונית של הדלתא בלבד אל מערכת ה InfiniSync. רק מידע שעדיין לא רופלק אל האתר המרוחק נכתב גם אל המערכת המקומית על גבי קו תקשורת מקומי אל דיסק SSD ככה שסה"כ אנחנו מוסיפים פחות מ 0.3 מילי שניות.

היות ומערכת ה InfiniSync מכילה סוללה משלה, מקושרת לרשת התקשורת המקומית וגם מסוגלת לתקשר על גבי שני סוגי תקשורת נוספים, אנו מגינים על המידע שטרם רופלק גם במקרה של אסון מתגלגל, כלומר אם נגיד נפל קו התקשורת אבל חדר השרתים עדיין תקין ועדיין מתבצעות כתיבות אל המערכת הראשית, אנחנו ממשיכים להגן על המידע החדש עד שקו התקשורת יחזור לתפקוד וניתן יהיה לרפלק את המידע החוצה מהאתר כמו שצריך. אם לאחר כמה זמן גם נופל החשמל בחדר השרתים, אנחנו ממשיכים לשדר את המידע על גבי התקשורת הסלולרית למרות שקווי התקשורת, ציוד התקשורת המקומית, השרתים וכו' כבר לא פעילים, ואפילו אם האסון הסביבתי חמור וגם רשת הסלולר לא קיימת יותר, המידע עדיין מוגן ומחכה עד שנהיה מסוגלים להעביר קווי תקשורת חליפיים או אפילו לקחת את הקופסא עצמה למקום אחר לשדר את המידע לאתר ה DR.

ininisync

בשורה התחתונה, לא משנה מה קרה, מאובדן קו תקשורת ועד רעידת אדמה באתר הראשי, המידע של הלקוח מוגן עד הבלוק האחרון גם אם לא בוצעה עדין רפליקציה אחרונה אל האתר המרוחק. אין היום אף פתרון כזה בשוק וללקוחות ישראלים תחת איום טילים, לקוחות קוריאנים תחת איום דומה (שנראה שהולך ונחלש), לקוחות בנוי-זילנד שחוששים מרעידות אדמה, יפנים שחוששים מצונאמי וכו' הפתרון הזה מציע דרך אחרת להגן על המידע באופן הרבה יותר פשוט, טכנית, והרבה יותר זול מכל דבר אחר שהיה זמין עבורם עד היום.

דבר אחד שצריך לשים לב אליו הוא זמן ההתאוששות, RTO. InfiniSync מספק הגנה לרמה של RPO-0 אבל RTO זה סיפור אחר. כל עסק צריך להיות מודע להשלכות של זמן ההתאוששות על התהליכים שלו, האם יש הגיון בהתאוששות מהירה אם המידע לא מלא ועדכני עד הסוף? האם האפליקציות יודעות להעלות לאוויר ולהשלים את המידע בשלב מאוחר יותר?

העלות הכספית והמורכבות הטכנולוגית של השילוב בין RTO-0 ל- RPO-0 על פני מרחק גיאוגרפי רב הם בדרך כלל בלתי סבירים לרוב מוחלט אם לא כל הארגונים.

ארגונים צריכים לחשוב על האיזון בין השניים ולשים את הדגש איפה שנכון. אינפינידט היא ספק מערכות האחסון היחיד שיש לו פתרונות לכל צורך ארגוני.

 

שלכם,

ניר מליק