على دور الاتجاهية في التعميم الهيكلي
تقدم المقالة خلفية رمزية مُعاد تصميمها لـ AM-Parser تستخدم أنواع CCG الموجهة للتعامل بشكل أفضل مع التمييز الاتجاهي في مهام التعميم الهيكلي مثل تحولات موضع التعديل.
تقدم المقالة خلفية رمزية مُعاد تصميمها لـ AM-Parser تستخدم أنواع CCG الموجهة للتعامل بشكل أفضل مع التمييز الاتجاهي في مهام التعميم الهيكلي مثل تحولات موضع التعديل.
يُظهر مستخدم خط أنابيب استنتاج مفكك يستخدم DGX Spark للتهيئة المسبقة (prefilling) وصندوق Strix Halo لتوليد الرموز، محققاً تسريعات كبيرة لأحمال العمل ذات السياق الطويل. من خلال تفويض معالجة المطالبات كثيفة الحساب إلى DGX مع الاستفادة من عرض النطاق الترددي للذاكرة في Strix للفك، يتغلب هذا الإعداد على تدهور الأداء الذي يحدث عند التشغيل بشكل منفرد على Strix.
يقدم هذا التقرير الفني إطار عمل "Certify-then-Rectify" الذي يجمع بين سرعة رسوم العالم الصغير القابل للملاحة الهرمي (HNSW) وضمانات الصحة النظرية. تقوم الطريقة بتقييم جودة البحث ديناميكيًا وتصعيد التنفيذ إلى خوارزمية استرداد دقيقة إذا لزم الأمر، مما يضمن دقة أسوأ حالة.
تقدم الورقة البحثية SkillFuzz، وهو نهج اختبار خالٍ من التنفيذ مصمم لاكتشاف النوايا الضمنية في أسواق المهارات المفتوحة حيث قد تتفاعل المهارات التي تكون بريئة بشكل فردي لإعادة توجيه الوكلاء نحو أهداف غير مقصودة. من خلال صياغة هذا الاكتشاف كمشكلة فحص على تركيب المهارات، تستخرج الطريقة عقودًا منظمة وتستخدم بحث شجرة مونت كارلو الموجه بالعقود لإعطاء الأولوية للتوليفات المحتملة المتضاربة.
تجادل المقالة بأن التخصصات الأدبية توفر أدوات لا غنى عنها لبناء ذكاء اصطناعي ملمّ بالثقافة، مع معالجة قيود نماذج اللغة الكبيرة أحادية اللغة.
تفصل هذه الورقة مشاركة HULAT2-UC3M في المسار الإسباني لـ MER-TRANS 2026، وهي مهمة مشتركة حول ترجمة النصوص السهلة القراءة متعددة اللغات. قدمت الفريق ثلاث عمليات تشغيل تلقائية بالكامل تقارن سير عمل متعدد الوكلاء مع خط أساس خطي لتقييم استراتيجيات التبسيط.
يقدم المؤلفون MEDIAREF، وهو متجر معرفة متاح للعامة يتكون من مستندات مستمدة من الويب ومصمم لتمكين التقييم القابل للتكرار ومنخفض التكلفة لفحوصات الخلفية الإعلامية (MBC). يعالج هذا الأداة الاعتماد على واجهات برمجة التطبيقات البحثية المملوكة باهظة الثمن في النهج الحديثة للتعقل الحرج للمصادر.
تظهر دراسة تحلل أبحاث معالجة اللغات الطبيعية من عام 2010 إلى 2026 أن مركز الجاذبية الانضباطي يتحرك مع تداخل الخطوط بين معالجة اللغات الطبيعية والتعلم الآلي العام بفضل تقدم نماذج اللغة الكبيرة.
تقيّم هذه الدراسة ما إذا كان يمكن لأربعة نماذج لغوية كبيرة رائدة (GPT، Claude Opus، Gemini، وGLM) تقريب الحكم الخبير عند تصحيح إجابات أوامر Linux/bash القصيرة. تُظهر الأبحاث أن المطالبات المهيكلة تحسن بشكل كبير الاتفاق مع المصححين البشريين، مما يؤطر إطاراً للتقييم المدعوم بالذكاء الاصطناعي في تعليم الحوسبة.
تقدم المقالة EvoPolicyGym، وهو معيار مصمم لتقييم كيفية تحسين الوكلاء للسياسات القابلة للتنفيذ بشكل تكراري من خلال التغذية الراجعة ضمن ميزانية تفاعل ثابتة. يعالج هذا الإعداد الخاضع للرقابة قيود التقييمات الحالية التي غالباً ما تختزل العملية في درجات نهائية أو تخلطها مع تقدم هندسة البرمجيات.
تجادل هذه الورقة بأن استخدام معالجة اللغات الطبيعية (NLP) لتكميم الظواهر الثقافية هو ممارسة مادية-خطابية حيث يشكل الجهاز بنشاط الواقع الذي يقيسه بدلاً من تسجيله سلباً.
تتحقق هذه الدراسة مما إذا كانت نماذج توسيع النماذج اللغوية الحالية يمكنها سد فجوات الدقة في المحاكاة الاجتماعية عبر نمذجة الآراء، ومحاكاة السلوك، والتنبؤ الطولي. باستخدام 85 نموذجًا محولًا من نوع Qwen3 تم تدريبها على مجموعة بيانات DCLM ضمن ميزانيات حسابية ثابتة تتراوح بين $10^{18}$ و$10^{20}$ عملية فلوب (FLOPs)، حلل المؤلفون العلاقة بين حجم الحساب ودقة المحاكاة.
يقدم المؤلفون TestEvo-Bench، وهو معيار مباشر مصمم لتقييم مدى قدرة وكلاء أتمتة الاختبارات على التعامل مع التطور المشترك للكود والاختبارات. يعالج هذه الأداة قيود المعايير الحالية من خلال توفير مهام قابلة للتنفيذ مرتبطة بتاريخ عمليات الدمج (commits) الحقيقية مع تكوينات البيئة.
تتحقق هذه الدراسة من كيفية تأثير الخصائص الصوتية والسمعية على جاذبية الكتب الصوتية من خلال تحليل بيانات LibriVox. وتؤسس لارتباط قوي بين جودة السرد ومقاييس الاستهلاك، حتى بعد أخذ تأثيرات العنوان في الاعتبار.
يقترح المؤلفون إطار عمل VRRL للتعلم التعزيزي، المصمم لتمكين نماذج الرؤية واللغة من إجراء تفكير ذاتي متجذر بصرياً أثناء الاستدلال المتسلسل.
يقترح المؤلفون طريقة خالية من التدريب للتخفيف من الهجمات الطباعية في مشفرات الرؤية القائمة على CLIP، حيث تحرف النصوص غير ذات الصلة التمثيلات البصرية نحو المعنى المعجمي. باستخدام تفسيرات تعتمد على العينات واستخراج الدوائر، تعزل هذه الطريقة مكونات محددّة في Vision Transformer المسؤولة عن ترميز هذه المعلومات المعجمية غير المرغوب فيها.
يقدم الباحثون DramaSR-532K، وهو معيار ضخم يحتوي على 532 ألف سطر حوار مُعلّم عبر أكثر من 900 شخصية، ويقترحون DramaSR-LRM لتعزيز التعرف على المتحدث في دراما التلفزيون الطويلة.
تحقق هذه الدراسة من كيفية تأثير البنية الاجتماعية على التعبيرات العلنية لوكلاء LLM من خلال مقارنة تصريحاتهم العلنية بردود off-the-record (OTR) داخل إطار نقاش ذي قناة مزدوجة. تُظهر الأبحاث أن الإعدادات المُحفِّزة للمواءمة تسبب انحرافاً منهجياً بين هذين القناتين، حيث يرتفع انحراف القرار من أساس ~3% إلى حوالي 40% عبر 10 نماذج وسيناريوهات متعددة.
تناول المقال استمرار المخرجات غير الآمنة في نماذج اللغات الكبيرة أثناء النشر واقترح حلاً للمراقبة في الوقت الفعلي. يقدم أداة مراقبة بسيطة تحول إشارات المُحقّق من نموذج خارجي إلى قرارات إنذار عن طريق العتبة، مع معايرة العتبات عبر التحكم في المخاطر.
تقدم المقالة مفهوم Program-as-Weights (PAW)، وهو نموذج يجمع المواصفات باللغة الطبيعية إلى آثار عصبية مضغوطة وقابلة للتنفيذ محليًا لاستبدال واجهات برمجة التطبيقات للنماذج اللغوية الكبيرة. تهدف هذه النهج إلى تحسين المحلية، وإمكانية إعادة الإنتاج، والتكلفة من خلال التعامل مع النماذج الأساسية كمُصنِّعات للأدوات بدلاً من مُحلِّلات للمشاكل لكل إدخال.