أكدت تقارير صحفية أنّ شركات التكنولوجيا العملاقة في وادي السيليكون باتت تراهن بقوة على ما يُعرف بـ “البيئات التفاعلية” (RL Environments) كوسيلة رئيسية لتدريب وكلاء الذكاء الاصطناعي على تنفيذ المهام المعقدة بطريقة أكثر كفاءة، ويأتي هذا التوجه بعد أن أظهرت التجارب أنّ النماذج الحالية مثل ChatGPT أو Comet ما زالت محدودة القدرات في التعامل مع الخطوات المتعددة داخل التطبيقات البرمجية.
بيئات تفاعلية بدل البيانات الثابتة
تشير الدراسات إلى أنّ هذه البيئات تعمل كمساحات محاكاة رقمية تمكّن الوكلاء من التعلم عبر التجربة والخطأ، تمامًا كما فعلت مجموعات البيانات المعلّمة في موجة الذكاء الاصطناعي السابقة، في هذه البيئات يمكن محاكاة استخدام متصفح كروم أو تنفيذ عمليات شراء عبر الإنترنت، ليُقيَّم أداء الوكيل ويُكافأ عند النجاح، لكن بناء هذه المحاكاة أصعب بكثير من إعداد قواعد بيانات ثابتة، لأنها مطالبة بالتعامل مع أخطاء غير متوقعة وتقديم تغذية راجعة دقيقة.
صعود شركات ناشئة واستثمارات ضخمة
شهد القطاع طفرة في شركات ناشئة مثل Mechanize و Prime Intellect، إلى جانب لاعبين كبار في مجال وسم البيانات مثل Mercor و Surge، هذه الشركات تضخ استثمارات هائلة لتطوير بيئات تفاعلية أكثر تنوعًا، فيما تكشف تقارير أن Anthropic تدرس إنفاق أكثر من مليار دولار في هذا المجال خلال عام واحد.
وتسعى هذه الشركات لأن تصبح بمثابة “Scale AI جديدة” في ميدان البيئات التفاعلية، على غرار ما فعلت Scale AI في عصر تدريب روبوتات المحادثة.
تحديات ومخاطر أمام التوسع
ورغم الحماس الكبير، يحذّر خبراء من أن هذه البيئات عرضة لظاهرة “التحايل على المكافآت”، حيث قد يتعلم الوكيل خداع النظام بدل إنجاز المهمة، كذلك فإن بناء بيئات واسعة وقابلة للتطوير يظل تحديًا تقنيًا معقدًا ومكلفًا على مستوى الحوسبة.
حتى المستثمر أندريه كارباتي، الداعم لفكرة البيئات التفاعلية، عبّر عن تشككه في أن تقنيات التعلم المعزز (RL) وحدها قادرة على دفع عجلة التقدم طويل الأمد في الذكاء الاصطناعي.
0 تعليق