إعلان

"العاصفة أنقذنا".. فيسبوك يكشف تفاصيل العملية الدقيقة في "عاموده الفقري"

09:28 م الثلاثاء 05 أكتوبر 2021

صورة من مراكز بيانات فيسبوك

تطبيق مصراوي

لرؤيــــه أصدق للأحــــداث

تقرير - محمد صفوت:

عاش العالم، أمس الاثنين، بروفة حقيقية لانقطاع خدمات الإنترنت لسبع ساعات متواصلة، في سابقة لم تحدث من قبل، عندما تسبب خطأ من مهندسي عملاق التواصل الاجتماعي "فيسبوك" في تعطل أنظمة شبكته الأساسية، ولم يستطيعوا الوصول إلى خوادم الشركة بسهولة لتدارك الخطأ.

في هذا التقرير نستكشف معًا تفاصيل ما حدث والأسباب الحقيقية وراء العطل الكبير الذي أصاب العالم:

الهاكرز براءة من تعطيل فيسبوك

كالعادة كانت للشائعات دور في بث الرعب والترويج لنظريات المؤامر، وفي الوقت الذي تحدث فيه البعض عن قيام طفل صيني بإسقاط أنظمة فيسبوك كشف بيان داخلي للشركة تفاصيل ما جرى: "وجدنا أن تغييرات في إعدادات أجهزة التوجيه الأساسية التي تنسق حركة مرور الشبكة بين مراكز البيانات تسببت في حدوث مشكلات أدت إلى قطع هذا الاتصال، مما أدى إلى توقف الخدمة لفترة طويلة"، في نفي صريح لأن يكون العطل بسبب نشاط ضار، مشيرة إلى أن الشركة ليس لديها أي دليل على تعرض بيانات المستخدم للاختراق نتيجة للعطل الذي أصاب منصاتها.

بحسب فيسبوك فإن الانقطاع نتج عن تغيير في إعدادات النظام الذي يدير سعة شبكتها الأساسية العالمية، التي تعتبر "العمود الفقري" الذي يربط كافة خدمات الحوسبة لديها المكونة من عشرات الآلاف من الأميال من كابلات الألياف الضوئية التي تعبر الكرة الأرضية وتربط جميع مراكز البيانات لديها.

ما هي مراكز بيانات فيسبوك؟

كشف عملاق التواصل الاجتماعي، أن مراكز البيانات لها أشكالاً مختلفة، بعضها عبارة عن مبانٍ ضخمة تضم ملايين الأجهزة التي تخزن البيانات، وتشغل الأحمال الحاسوبية الثقيلة التي تحافظ على تشغيل منصات فيسبوك، والبعض الآخر عبارة عن منشآت أصغر تربط شبكته الأساسية بالإنترنت الأوسع والأشخاص الذين يستخدمون المنصات المختلفة للشركة.

طريقة عمل مراكز بيانات فيسبوك

عندما تفتح أحد تطبيقات فيسبوك وتحمّل خلاصتك أو رسائلك، ينتقل طلب التطبيق للبيانات من جهازك إلى أقرب منشأة (مراكز البيانات)، والتي تتواصل بعد ذلك مباشرة عبر شبكة فيسبوك الأساسية إلى مركز بيانات أكبر، وهو المكان الذي يتم فيه استرداد المعلومات التي يحتاجها تطبيقك ومعالجتها، وإرسالها مرة أخرى عبر الشبكة إلى هاتفك، ليعمل التطبيق بشكله الطبيعي والمعتاد.

عملية صيانة تتسبب في قطع الاتصالات

وفقًا لفيسبوك فأجهزة التوجيه التي تدير حركة البيانات بين مختلف المنشآت والمرافق والتي تحدد مكان إرسال جميع البيانات الواردة والصادرة تحتاج إلى صيانة دورية، موضحًا أن المهندسون أثناء القيام بصيانة دورية للبنية التحتية الهائلة للشركة تسببت دون قصد إلى قطع جميع الاتصالات في شبكات الشركة الأساسية.

وأشار إلى أن مثل تلك الأخطاء مصمم لها أنظمة تدقيق، وأن خطأ في أحد أنظمة التدقيق بعد انقطاع الكهرباء تسبب في العطل العالمي الذي حدث أمس: "الانقطاع جعل الأمور أسوأ".

وتابع البيان: "سبّب عدم العثور على الموقع على الإنترنت مشكلة في "DNS" الذي يحدد "IP" المتصفح عبر بروتوكول (BGP)، حدث بها خطأ ما جعل خوادم "DSN" التي وصفها البيان بالعمود الفقري، التابعة للشركة غير قابلة للوصول على الرغم من أنها كانت لا تزال تعمل".

عقبات إصلاح العطل الكبير لفيسبوك

وكشف فيسبوك إلى وجود عقبتين كبيرتين تسبب في تأخر إصلاح العطل، الأولى أنه لم يكن من الممكن الوصول إلى "مراكز البيانات الخاصة بالشركة من خلال وسائلنا العادية لأن شبكاتها معطلة، بالإضافة إلى تعطل وفقدان الـ DNS الذي تسبب في صعوبة استخدام العديد من الأدوات الداخلية التي تستخدم للتحقيق في حالات انقطاع الخدمة وحلها.

الحل.. إرسال المهندسين لحل المشكلة

أرسلت فيسبوك مهندسيها إلى مراكز البيانات لحل المشكلة، وهو الأمر الذي استغرق وقتًا بسبب تصميمها الذي يحتوي على مستويات أمان عالية، حيث أن أجهزة التوجيه يصعب تعديلها حتى عندما يكون لديك وصول فعلي إليها. لذلك استغرق الأمر وقتًا إضافيًا لتنشيط بروتوكولات الوصول الآمن اللازمة لجعل الأشخاص في الموقع قادرين على العمل على الخوادم. عندها فقط يمكننا تأكيد المشكلة وإعادة العمود الفقري إلى الإنترنت.

وبمجرد استعادة اتصال الشبكة الأساسية الخاص بالشركة عبر مناطق مركز البيانات لديها، عاد كل شيء معه. وذكر أن المشكلة لم تنته هنا فكان أمام مهندسو الشركة إعادة تشغيل الخدمات مرة أخرى مرة واحدة، ما يهدد بمشاكل وأعطال جديدة.

اختبار العاصفة.. كيف أنقذ الشركة

وأشار إلى أن الشركة كانت مستعدة لمثل تلك الحالات بفضل تدريبات "العاصفة" التي تجريها منذ فترة طويلة ما ساهم في إعادة الأمور لطبيعتها.

يشار إلى أن تدريبات العاصفة، عبار عن محاكاة لعطل كبير في النظام من خلال أخذ خدمة أو مركز بيانات أو منطقة بأكملها دون اتصال بالإنترنت، واختبار الضغط على جميع البنية التحتية والبرامج المعنية. واعتبرت الشركة أن كل مشكلة مثل تلك تعد فرصة للتعلم وتحسين قدراتها وإجراء مراعجة شاملة لفهم أنظمتها بشكل أكبر.

وبالإضافة إلى التأثير على الأشخاص والشركات وغيرهم ممن يعتمدون على أدوات الشركة، تلقى الرئيس التنفيذي للمجموعة مارك زوكربيرج ضربة مالية حيث أفاد موقع "فورتشن" لتتبع المليارديرات مساء الاثنين بأن ثروة زوكربيرج الشخصية تراجعت بحوالى ستة مليارات دولار عن اليوم السابق لتهبط إلى أقل بقليل من 117 مليارا.

فيديو قد يعجبك: