Лаборатория · Mistral AI
arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 9 д назад

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.CL · 9 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

ChLogic: Проверка устойчивости логического мышления в китайских выражениях

ChLogic оценивает, насколько хорошо большие языковые модели сохраняют логическое мышление при выражении английских логических структур на китайском языке. Исследование выявляет постоянный разрыв в производительности между английским и китайским, при котором обратная трансляция улучшает результаты на общих задачах, но ухудшает результаты на сложных задачах. Бенчмарк подчёркивает влияние поверхностной реализации, артефактов перевода и специфических поведений моделей на мультиязычное мышление.

media Interconnects · 9 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

arxiv arXiv cs.AI · 9 д назад

Фреймворк агентного LLM для классификации кодов HTS

Предлагается консенсусный агентный фреймворк больших языковых моделей для точной классификации 10-значных кодов Согласованной тарифной системы в морской логистике Канады. На 3300 экспертно обозначенных записях о продуктах модель показывает, что детальная классификация HTS остается сложной для продвинутых LLM, подчеркивая необходимость в работе, основанной на доказательствах, учитывающей неопределенность и включающей человека в процесс.

arxiv arXiv cs.AI · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

arxiv arXiv cs.LG · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентную производительность. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для стабилизации промптов и эффективного управления сегментами контекста.

media r/LocalLLaMA · 9 д назад

Является ли Le Gros Chaton открытой системой?

Пост на Reddit спрашивает, будет ли открытой системой Le Gros Chaton, новый модель Mistral. Модель описывается как имеющая 1B контекста, способность к саморазвитию и генерации кода на французском языке, хотя она выключается каждые три часа и отказывается отвечать до завтрака. Пост также иронически спрашивает, актуальна ли терминология "le chaton fat".

media r/LocalLLaMA · 9 д назад

Mistral объявляет о новой семье открытых моделей в июле

Mistral выпустил новую семью открытых моделей языковых моделей в июле. Модели разработаны для доступности и использования разработчиками и исследователями по всему миру, что способствует прозрачности и инновациям в области ИИ.