كشفت شركة Cloudflare، عن تفاصيل أكثر حول واقعة الانقطاع الكبير بخدمات الإنترنت أمس يوم الثلاثاء، والذي تسبب في توقف ChatGPT مؤقتًا ، فقد أكدت أن إعداد استعلام خاطئ في نظام إدارة الروبوتات بالشركة تسبب في تعطيل أجزاء كبيرة من الإنترنت لعدة ساعات.
ونشر ماثيو برينس، المؤسس المشارك والرئيس التنفيذي لـ Cloudflare، تدوينة مساء الثلاثاء على مدونته، وصف فيها هذا الحادث بأنه "أسوأ انقطاع منذ عام 2019 ، وأشار إلى أن السبب كان مرتبطًا بـ نظام إدارة الروبوتات، المسؤول عن التحكم فى برامج الزحف المسموح لها بفحص مواقع الإنترنت باستخدام شبكة CDN الخاصة بالشركة.
وتجدر الإشارة إلى أن حوالى 20% من حركة الإنترنت العالمية تمر عبر شبكة Cloudflare، وفقًا للشركة ، ويُفترض أن الشبكة تساعد في الحفاظ على استمرارية المواقع الإلكترونية حتى في حال ارتفاع حركة المرور أو التعرض لهجمات DDoS.
ومع ذلك، أدى العطل إلى انقطاع العديد من الخدمات الشهيرة مثل X وChatGPT وDowndetector لعدة ساعات، وهو ما يشبه الانقطاعات السابقة التي حدثت بسبب مشاكل فى خدمات مثل Microsoft Azure وAmazon Web Services.
وقد تم تصميم نظام إدارة الروبوتات في Cloudflare ، للتعامل مع برامج الزحف التي تجمع المعلومات لتدريب الذكاء الاصطناعي التوليدى، وتستخدم الشركة نظامًا قائمًا على الذكاء الاصطناعى لإنشاء متاهة الذكاء الاصطناعى، بهدف إبطاء برامج الزحف غير الملتزمة بتعليمات عدم الزحف وإرباكها، ومع ذلك، أكدت الشركة أن الانقطاع الأخير لم يكن بسبب هذه التقنية أو بسبب هجوم إلكترونى، بل نتيجة تغيير في إعدادات قاعدة البيانات أدى إلى مشاكل فى معالجة حركة المرور.
وفقًا لما ذكره Prince، فإن نموذج التعلم الآلي وراء Bot Management الذي يولد درجات الروبوت للطلبات يحتوي على ملف تكوين يتم تحديثه باستمرار، فإن التغيير الأخير تسبب في إنشاء نسخ مكررة من المعلومات داخل قاعدة البيانات، ما أدى إلى تجاوز حدود الذاكرة المحددة مسبقًا وتعطيل نظام الوكيل الأساسي المسؤول عن حركة مرور البيانات ، نتيجة لذلك قطعت بعض قواعد Cloudflare حركة المرور الفعلية وظهرت نتائج إيجابية خاطئة.
ولمنع تكرار مثل هذا الحادث، خططت Cloudflare لتنفيذ أربع خطوات رئيسية:
1. تعزيز استيعاب ملفات التكوين التي تم إنشاؤها آليًا.
2. تمكين المزيد من مفاتيح القتل العالمية للميزات لضمان السيطرة عند الطوارئ.
3. إزالة القدرة على تفريغ البيانات الأساسية أو تقارير الأخطاء التي قد تستهلك موارد النظام.
4. مراجعة أوضاع الفشل لجميع وحدات الوكيل الأساسية لضمان استقرار النظام في حالة حدوث أخطاء.

0 تعليق