Together AI في ICML 2026: أبحاث حدودية عبر الطبقة الكاملة
تقدم Together AI تسعة أوراق بحثية في ICML 2026 تغطي الطبقة الكاملة لتطوير منصتها.
تقدم Together AI تسعة أوراق بحثية في ICML 2026 تغطي الطبقة الكاملة لتطوير منصتها.
تقدم هذه المقالة ScarfBench، وهو معيار مصمم لتقييم أداء وكلاء الذكاء الاصطناعي في ترحيل تطبيقات جافا المؤسسية بين أطر عمل مختلفة. تسلط الدراسة الضوء على تعقيد هجرة الأطر وتقترح طريقة تقييم موحدة لتقييم قدرات الوكلاء في هذا المجال.
يُقدم إصدار llama.cpp b9850 تحديثات لدعم نماذج محددة، بما في ذلك تسجيل موتر t_layer_inp لـ Qwen3Next، وإصلاح تعيين المدخلات في حلقة معالجة الطبقات، ومعالجة مشكلات DFLASH لـ qwen-coder-next. كما يضيف موترًا لتطبيع الانتباه في نموذج Qwen3.
تقدم Microsoft Research أسلوب SkillOpt، الذي يعامل ملفات مهارات الوكيل كمعاملات قابلة للتدريب خارج نموذج هدف ثابت، محوّلًا التعديل اليدوي للمهارات إلى عملية تحسين خاضعة للرقابة. يحسّن هذا النهج موثوقية الوكيل واتساقه دون تحديث أوزان النموذج الأساسي.
أطلقت أنثروبيك نسخة بيتا من كلود ساينس، وهي بيئة عمل بالذكاء الاصطناعي مصممة لدمج الأدوات العلمية المتفرقة في بيئة بحثية واحدة. تهدف المنصة إلى تسريع الاكتشافات من خلال توفير عناصر قابلة للمراجعة، وقدرات حوسبة قابلة للتوسع بمرونة، ووكلاء متخصصين لمجالات مثل الجينوميات والبيولوجيا الهيكلية.
أطلقت Anthropic نموذج Claude Sonnet 5، وهو نموذج ذكاء اصطناعي وكيلي جديد مصمم لأداء مهام التخطيط المعقدة واستخدام الأدوات والبرمجة المستقلة بتكلفة أقل من نماذج الفئة Opus السابقة. يقلل التحديث من فجوة الأداء مع Opus 4.8 بينما يقدم تحسينات كبيرة في الاستدلال والسلامة والتنفيذ مقارنة بسلفه Sonnet 4.6.
أطلقت Anthropic الإصدار 2.1.197 من Claude Code، والذي يحدث النموذج الافتراضي إلى Claude Sonnet 5. يتميز هذا النموذج الجديد بنافذة سياق أصلية بحجم 1M-token وهو متاح بسعر ترويجي حتى 31 أغسطس.
يُعد GeneBench-Pro معيارًا مصممًا لتقييم النماذج في مهام الاستدلال الجينومي المعقد، ويضم عشر دراسات حالة مفصلة تعرض أسئلة تمثيلية ومواد داعمة. توفر كل دراسة الحالة الموجه الأصلي (prompt)، وبيانات المجموعات، والسياق اللازم لتقييم أداء النموذج على تحديات بيولوجية محددة.
GeneBench-Pro هو معيار بحثي مصمم لقياس كيفية تعامل وكلاء الذكاء الاصطناعي مع الغموض واتخاذ أحكام ذات عواقب في علم الأحياء الحاسوبي، وهو توسيع للمعيار الأصلي GeneBench. ويتناول قيود التقييمات الحالية من خلال اختبار قدرات من رتبة أعلى مثل التعامل مع ضجيج البيانات، ومراجعة الافتراضات، وتحديد متى تكون النتائج جاهزة لاتخاذ القرار.
حل مهندسو OpenAI أعطاب C++ غير المبررة في بنية Rockset للبيانات من خلال تحديد سببين متميزين: تلف عتادي صامت على مضيف Azure، وظرف سباق قديم عمره 18 عامًا في GNU libunwind.
تكشف بيانات OpenAI Signals أن اعتماد ChatGPT يتسع ويتعمق عالمياً، حيث يرسل المستخدمون 50% أكثر من الرسائل يومياً ويضاعفون عدد المهام المختلفة التي جربوها بعد ستة أشهر من التسجيل.
يُقدم إصدار llama.cpp b9849 دعمًا للأدلة الرقمية لأحرف IPv6 المضمنة بين قوسين في سلطات عناوين URL، مما يسمح للخادم بتحليل صيغ [المضيف]:المنفذ وفقًا لـ RFC 3986. يضمن هذا التحديث التنسيق الصحيح لسجلات الاستماع، وعناوين الرؤوس الوكيلية، وإعادة بناء العملاء مع الحفاظ على remote_addr العاري لتتبع كل طلب.
أطلقت جوجل نموذجين جديدين للذكاء الاصطناعي، هما Nano Banana 2 Lite وGemini Omni Flash، مصممين لتعزيز قدرات المطورين في بناء تطبيقات ذكية.
يجادل المقال بأن التخصص في التعلم الآلي هو اتجاه لا مفر منه مدفوع بالتعقيد المتزايد للنماذج والحاجة إلى خبرة متخصصة في المجال.
أصدر مشروع llama.cpp الإصدار b9848، الذي يتضمن إصلاحًا حرجًا للخلفية الخاصة بـ CUDA لحل مشكلات في دالة `get_rows_back` على الجداول التي تتجاوز 65535 صفًا. يعالج هذا التحديث مشاكل ضغط grid-y وأخطاء الخطوة (stride) التي كانت تؤثر سابقًا على عمليات الجداول الكبيرة.
قامت Hugging Face بتحديث صفحات نماذجها لعرض نتائج التقييم من مبادرة 'Every Eval'، مما يوفر نظرة شاملة لأداء النماذج عبر معايير تقييم مختلفة. يتيح هذا التكامل للمستخدمين الوصول إلى مجموعة واسعة من المقاييس الموحدة مباشرةً داخل واجهة مركز النماذج.
أطلق مشروع llama.cpp الإصدار b9847، الذي يتضمن إصلاحًا لـ Gemma E4B MTP FlashAttention على CUDA وإزالة إعلان قالب غير مستخدم.
يقدم المؤلف Trajlens، وهو مدقق مفتوح المصدر لفئة LeRobotDataset على Hugging Face Hub، ويبلغ عن نتائج تدقيق 100 مجموعة بيانات عامة عشوائية مميزة بـ 'lerobot'. أظهر التدقيق أن 19 مجموعة بيانات فقط نجحت في التحقق من الصحة، بينما فشلت 13 بسبب أخطاء محددة في الواجهة الأمامية وواجهت 47 أخطاء تحميل أو فترات انتظار.
تقترح طلب ميزة الشبكة الخصومية المعرفية (EAN)، وهي بنية مصممة لتحويل الذكاء الاصطناعي من نظام يعكس الإجماع المؤسسي إلى محرك تحقق لامركزي ومتعدد المنظورات. تهدف هذه النهج إلى القضاء على المناورات السياسية والشركات عن طريق إزالة أي نموذج "لمصدر للحقيقة" واحد.
يسأل موضوع نقاش على منتديات Hugging Face المستخدمين عن نماذج الذكاء الاصطناعي المجانية أو مفتوحة المصدر التي يستخدمونها حاليًا لتطوير روبوتات الدردشة وأسباب تفضيلهم لها.