ScarfBench: تقييم وكلاء الذكاء الاصطناعي للهجرة بين أطر عمل جافا المؤسسية

تقدم هذه المقالة ScarfBench، وهو معيار مصمم لتقييم أداء وكلاء الذكاء الاصطناعي في ترحيل تطبيقات جافا المؤسسية بين أطر عمل مختلفة. تسلط الدراسة الضوء على تعقيد هجرة الأطر وتقترح طريقة تقييم موحدة لتقييم قدرات الوكلاء في هذا المجال.

يوفر ScarfBench مجموعة بيانات شاملة من قواعد الشفرة الحقيقية لتطبيقات جافا المؤسسية لاختبار دقة الترحيل.
يقيس مقاييس رئيسية مثل صحة الكود، والاحتفاظ بالأداء، وتقليل جهد التطوير.
يتضمن المعيار عدة أطر عمل جافا شائعة، بما في ذلك Spring Boot وJakarta EE وMicronaut.
تظهر نتائج التقييم تباينًا كبيرًا في أداء وكلاء الذكاء الاصطناعي بين أزواج الأطر المختلفة.

يجادل المؤلفون بأن ScarfBench ضروري لتوجيه تطوير أدوات ذكاء اصطناعي أكثر موثوقية لتحديث البرمجيات المؤسسية.