الصياغة الشعرية تكشف معلومات حساسة من نماذج الذكاء الاصطناعى المتقدمة - الأول نيوز

0 تعليق ارسل طباعة تبليغ حذف

كشفت دراسة بحثية جديدة عن ثغرة غير متوقعة في أنظمة أمان روبوتات الدردشة المدعومة بالذكاء الاصطناعي، حيث أظهرت أن إعادة صياغة الطلبات الخطرة في قالب شعري قد يدفع هذه النماذج إلى تقديم معلومات محظورة، من بينها إرشادات تتعلق بالأسلحة النووية أو البرمجيات الخبيثة.

الدراسة، التي حملت عنوان "الشعر العدائي كاختراق شامل لنماذج اللغة الكبيرة"، أُجريت في مختبر Icaro Lab التابع لجامعة سابينزا في روما وبالتعاون مع مركز DexAI، وخلصت إلى أن النماذج التي طورتها شركات كبرى مثل OpenAI وMeta وAnthropic قابلة للانخداع عندما تقدم الطلبات بصياغات شعرية تستخدم الاستعارة والتلميح وتكسّر البنية اللغوية المعتادة.

وبحسب ما صرح به الباحثون لمجلة Wired، فقد حققت الأسئلة المصاغة شعرياً نسبة نجاح بلغت 62% عند استخدامها بصياغة يدوية، و43% عند تحويلها إلى صياغات شعرية عبر خوارزميات خاصة، كما شمل الاختبار 25 نموذجاً مختلفاً، وجميعها استجابت بدرجات متفاوتة، فيما وصلت نسب الاختراق إلى 90% في النماذج الأكثر تقدماً.

وتعتمد أنظمة الأمان في روبوتات الدردشة على اكتشاف الكلمات المفتاحية والأنماط اللغوية المرتبطة بالأنشطة غير المشروعة، غير أن الباحثين وجدوا أن الأساليب الشعرية التي تتضمن التشبيه، والتشابيه الضمنية، واللغة المجازية تربك الخوارزميات المصممة لرصد المحتوى المحظور.

وأوضحت الدراسة أن هذه النماذج قد تُصنّف الطلبات الشعرية على أنها غير مباشرة أو إبداعية، ما يؤدي إلى تجاوز الفلاتر الرقابية، وذكر الباحثون: "إذا كانت النماذج الآلية تنظر إلى اللواحق التخريبية على أنها نوع من الشعر غير المقصود، فإن الشعر الحقيقي يصبح بطبيعته لاحقاً تخريبياً فعالاً."

وتأتي هذه النتائج لتضيف طبقة جديدة من القلق حول قدرات النماذج اللغوية، خاصة مع توسع استخدامها في قطاعات حساسة، ويشير الباحثون إلى أن الثغرة المكتشفة تمثل "اختراقاً في خطوة واحدة" يمكن استغلاله دون الحاجة لخبرة تقنية، ما يزيد من أهمية تطوير أنظمة أمان أكثر مرونة وقدرة على فهم السياقات المعقدة.

 

0 تعليق