كل المقالات — korshunov.ai

كل المقالات صفحة 1 / 22

تحديات وتوصيات لنماذج LLM-as-a-Judge في الإعدادات متعددة اللغات

تفحص هذه المقالة موثوقية استخدام النماذج اللغوية الكبيرة كمقيّمين في سياقات متعددة اللغات ولغات ذات موارد محدودة، مسلطة الضوء على فجوات كبيرة في الممارسات الحالية. حلّل المؤلفون 650 ورقة من مجموعة ACL Anthology لتحديد التناقضات والاعتماد المفرط على نماذج حكم فردية.

arxiv arXiv cs.CL · منذ 2 ساعة

AgenticSTS: منصة اختبار بذاكرة محدودة لوكلاء LLM طويلي الأفق

يقدم المؤلفون AgenticSTS، وهي منصة اختبار مصممة لدراسة كيفية تشكيل طبقات الذاكرة الصريحة لقرارات وكلاء LLM طويلي الأفق. تستخدم العقد ذاكرة محدودة في لعبة Slay the Spire 2 حيث يتم تجميع المطالبات عبر الاسترجاع المصنّف بدلاً من إرفاق النصوص الخام.

arxiv arXiv cs.CL · منذ 2 ساعة

BamiBERT: نموذج لغوي جديد قائم على BERT للغة الفيتنامية

يقدم الباحثون BamiBERT، وهو نموذج لغوي مُدرَّب مسبقًا جديد قائم على BERT للغة الفيتنامية مصمم لمعالجة قيود المعيار الحالي، PhoBERT. تم تدريبه من الصفر على مجموعة بيانات بحجم 129 جيجابايت لمدة 20 عصرًا، ويدعم طول سياق موسع يصل إلى 2048 رمزًا ويعمل مباشرةً على الإدخال الخام دون تقسيم كلمات خارجي.

arxiv arXiv cs.CL · منذ 2 ساعة

CheckRLM: فحص اتساق المعرفة-التفكير الفعال في الاستدعاء المعزز بالاسترجاع

يقترح المؤلفون إطار عمل CheckRLM الذي يعزز موثوقية نماذج اللغة الاستدلالية من خلال استخدام التوليد المعزز بالاسترجاع للتحقق من الأخطاء الواقعية وتصحيحها في الوقت المناسب أثناء الاستدلال. يستخرج هذا النهج الادعاءات الواقعية من سلاسل الاستدلال لتحديد عدم الاتساق ويطبق تصحيحات بأقل تكلفة باستخدام المعرفة الخارجية.

arxiv arXiv cs.CL · منذ 2 ساعة

HERMES: ركيزة تسمية متعددة الدقة لمزيج بيانات التدريب المسبق

HERMES هي ركيزة تمية مشتقة من البيانات تستخدم تحويلًا دلاليًا متعلمًا وكمّية متجهية متبقية في 3 مراحل لتعليق المستندات كرمز من الخشن إلى الناعم مع ما يصل إلى حوالي 130k خلية.

arxiv arXiv cs.CL · منذ 3 ساعة

على دور الاتجاهية في التعميم الهيكلي

تقدم المقالة خلفية رمزية مُعاد تصميمها لـ AM-Parser تستخدم أنواع CCG الموجهة للتعامل بشكل أفضل مع التمييز الاتجاهي في مهام التعميم الهيكلي مثل تحولات موضع التعديل.

media r/LocalLLaMA · منذ 3 ساعة

معالجة المطالبات المفككة باستخدام DGX Spark و Strix Halo

يُظهر مستخدم خط أنابيب استنتاج مفكك يستخدم DGX Spark للتهيئة المسبقة (prefilling) وصندوق Strix Halo لتوليد الرموز، محققاً تسريعات كبيرة لأحمال العمل ذات السياق الطويل. من خلال تفويض معالجة المطالبات كثيفة الحساب إلى DGX مع الاستفادة من عرض النطاق الترددي للذاكرة في Strix للفك، يتغلب هذا الإعداد على تدهور الأداء الذي يحدث عند التشغيل بشكل منفرد على Strix.

arxiv arXiv cs.CL · منذ 3 ساعة

HNSW مع ضمانات الدقة باستخدام مشابك الرسوم البيانية

يقدم هذا التقرير الفني إطار عمل "Certify-then-Rectify" الذي يجمع بين سرعة رسوم العالم الصغير القابل للملاحة الهرمي (HNSW) وضمانات الصحة النظرية. تقوم الطريقة بتقييم جودة البحث ديناميكيًا وتصعيد التنفيذ إلى خوارزمية استرداد دقيقة إذا لزم الأمر، مما يضمن دقة أسوأ حالة.

arxiv arXiv cs.CL · منذ 4 ساعة

SkillFuzz: فحص تركيب المهارات لاكتشاف النوايا الضمنية في أسواق المهارات المفتوحة

تقدم الورقة البحثية SkillFuzz، وهو نهج اختبار خالٍ من التنفيذ مصمم لاكتشاف النوايا الضمنية في أسواق المهارات المفتوحة حيث قد تتفاعل المهارات التي تكون بريئة بشكل فردي لإعادة توجيه الوكلاء نحو أهداف غير مقصودة. من خلال صياغة هذا الاكتشاف كمشكلة فحص على تركيب المهارات، تستخرج الطريقة عقودًا منظمة وتستخدم بحث شجرة مونت كارلو الموجه بالعقود لإعطاء الأولوية للتوليفات المحتملة المتضاربة.

arxiv arXiv cs.CL · منذ 4 ساعة

النماذج العالمية: أدوات أدبية للذكاء الاصطناعي الثقافي

تجادل المقالة بأن التخصصات الأدبية توفر أدوات لا غنى عنها لبناء ذكاء اصطناعي ملمّ بالثقافة، مع معالجة قيود نماذج اللغة الكبيرة أحادية اللغة.

arxiv arXiv cs.CL · منذ 4 ساعة

HULAT2 في MER-TRANS 2026: تبسيط متعدد الوكلاء خاضع للحكم لتوليد نصوص إسبانية سهلة القراءة

تفصل هذه الورقة مشاركة HULAT2-UC3M في المسار الإسباني لـ MER-TRANS 2026، وهي مهمة مشتركة حول ترجمة النصوص السهلة القراءة متعددة اللغات. قدمت الفريق ثلاث عمليات تشغيل تلقائية بالكامل تقارن سير عمل متعدد الوكلاء مع خط أساس خطي لتقييم استراتيجيات التبسيط.

arxiv arXiv cs.CL · منذ 4 ساعة

اعرف مصدرك: متجر معرفة عام لإجراء فحوصات الخلفية الإعلامية

يقدم المؤلفون MEDIAREF، وهو متجر معرفة متاح للعامة يتكون من مستندات مستمدة من الويب ومصمم لتمكين التقييم القابل للتكرار ومنخفض التكلفة لفحوصات الخلفية الإعلامية (MBC). يعالج هذا الأداة الاعتماد على واجهات برمجة التطبيقات البحثية المملوكة باهظة الثمن في النهج الحديثة للتعقل الحرج للمصادر.

arxiv arXiv cs.CL · منذ 5 ساعة

أنماط الهجرة الأكاديمية في معالجة اللغات الطبيعية

تظهر دراسة تحلل أبحاث معالجة اللغات الطبيعية من عام 2010 إلى 2026 أن مركز الجاذبية الانضباطي يتحرك مع تداخل الخطوط بين معالجة اللغات الطبيعية والتعلم الآلي العام بفضل تقدم نماذج اللغة الكبيرة.

arxiv arXiv cs.CL · منذ 5 ساعة

التصحيح الآلي لاختبارات Linux/bash باستخدام نماذج لغوية كبيرة

تقيّم هذه الدراسة ما إذا كان يمكن لأربعة نماذج لغوية كبيرة رائدة (GPT، Claude Opus، Gemini، وGLM) تقريب الحكم الخبير عند تصحيح إجابات أوامر Linux/bash القصيرة. تُظهر الأبحاث أن المطالبات المهيكلة تحسن بشكل كبير الاتفاق مع المصححين البشريين، مما يؤطر إطاراً للتقييم المدعوم بالذكاء الاصطناعي في تعليم الحوسبة.

arxiv arXiv cs.CL · منذ 5 ساعة

EvoPolicyGym: تقييم التطور الذاتي للسياسات في البيئات التفاعلية

تقدم المقالة EvoPolicyGym، وهو معيار مصمم لتقييم كيفية تحسين الوكلاء للسياسات القابلة للتنفيذ بشكل تكراري من خلال التغذية الراجعة ضمن ميزانية تفاعل ثابتة. يعالج هذا الإعداد الخاضع للرقابة قيود التقييمات الحالية التي غالباً ما تختزل العملية في درجات نهائية أو تخلطها مع تقدم هندسة البرمجيات.

arxiv arXiv cs.CL · منذ 5 ساعة

نماذج اللغة كأجهزة قياس للثقافة

تجادل هذه الورقة بأن استخدام معالجة اللغات الطبيعية (NLP) لتكميم الظواهر الثقافية هو ممارسة مادية-خطابية حيث يشكل الجهاز بنشاط الواقع الذي يقيسه بدلاً من تسجيله سلباً.

media Hugging Face Forums · منذ 6 ساعة

اختبار على حسابي

هذا منشور اختبار تم إنشاؤه للتحقق من القدرة على إنشاء المحتوى. يحتوي النقاش على منشورين ويضم مشاركين اثنين.

github Goose (Block) · منذ 6 ساعة

ملاحظات إصدار Goose v1.41.0

يُقدم تحديث Goose v1.41.0 توسعات كبيرة في دعم المزودين، بما في ذلك تكاملات جديدة لـ iFlytek Spark و Astron و Fireworks AI و Together AI و OrcaRouter و EmpirioLabs AI و xAI SuperGrok و Perplexity و Alibaba (Qwen عبر DashScope) و Databricks AI Gateway و NEAR AI Cloud و Scaleway. كما يضيف دعم نموذج GLM-5.2 وقدرات الاستدلال المحلي MLX.

arxiv arXiv cs.CL · منذ 6 ساعة

هل سيؤدي التوسع إلى تحسين المحاكاة الاجتماعية باستخدام نماذج اللغات الكبيرة؟

تتحقق هذه الدراسة مما إذا كانت نماذج توسيع النماذج اللغوية الحالية يمكنها سد فجوات الدقة في المحاكاة الاجتماعية عبر نمذجة الآراء، ومحاكاة السلوك، والتنبؤ الطولي. باستخدام 85 نموذجًا محولًا من نوع Qwen3 تم تدريبها على مجموعة بيانات DCLM ضمن ميزانيات حسابية ثابتة تتراوح بين $10^{18}$ و$10^{20}$ عملية فلوب (FLOPs)، حلل المؤلفون العلاقة بين حجم الحساب ودقة المحاكاة.

arxiv arXiv cs.CL · منذ 7 ساعة

TestEvo-Bench: معيار قابل للتنفيذ ومباشر للتطور المشترك للاختبار والكود

يقدم المؤلفون TestEvo-Bench، وهو معيار مباشر مصمم لتقييم مدى قدرة وكلاء أتمتة الاختبارات على التعامل مع التطور المشترك للكود والاختبارات. يعالج هذه الأداة قيود المعايير الحالية من خلال توفير مهام قابلة للتنفيذ مرتبطة بتاريخ عمليات الدمج (commits) الحقيقية مع تكوينات البيئة.