Результаты
Сортировка
Сбросить
lab Claude Code Releases · 10 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

arxiv arXiv cs.CL · 10 д назад

Обучение LLM для среды обучения RL с многомодульным рассуждением

Фреймворк LLM-как-инженер-среды использует LLM для автоматического перестройки сред обучения в области робастного обучения, анализируя траектории неудач и контекстуальные данные. На тестовой платформе MAPF-FrozenLake он превосходит более крупные проприетарные LLM и базовые статичные среды, при этом Qwen3-4B достигает наилучшей общей производительности. Анализ показывает, что доказательства неудач и сохранённые рабочие конфигурации являются ключевыми, и текущий чекпоинт RL показывает лучшую производительность, чем базовая модель как инженер среды.

arxiv arXiv cs.CL · 10 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 10 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 10 д назад

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ

Новый фреймворк автоматизирует улучшение промптов для агентов на основе ЛЛМ, разделяя поток от наблюдения до действия на модули с целью и выбора действия. Он использует эволюционный цикл, управляемый ЛЛМ, для итеративного улучшения промптов на основе обратной связи от среды, достигая до 72,5% успеха в PutNext, где предыдущие агенты не справлялись, без тонкой настройки модели.

arxiv arXiv cs.CL · 10 д назад

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

Динамическое редактирование последовательности (DRE) решает проблему перегрузки мышления в моделях рассуждений, обученных методом релей-обучения, путем модификации успешных траекторий после появления ответа. DRE сохраняет правильный предварительный этап рассуждения, при этом редактирует ненужные продолжения, ослабляя кредит, присваиваемый избыточным рассуждениям, без наказания за корректные рассуждения. Эксперименты на различных задачах демонстрируют его эффективность в снижении перегрузки мышления.

media r/LocalLLaMA · 10 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

github llama.cpp · 10 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 10 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

github llama.cpp · 11 д назад

Релиз LLaMA.cpp b9663 добавляет поддержку SYCL и новые бинарные сборки

Релиз LLaMA.cpp b9663 добавляет поддержку OP EXPM1 и все тестовые случаи для FLOOR, TRUNC и ROUND. В него включены обновлённые бинарные файлы для macOS, Linux, Android, Windows и openEuler, с поддержкой SYCL (FP32 и FP16), Vulkan, CUDA 12.4 и 13.3, ROCm 7.2, а также обновлённый интерфейс.

github llama.cpp · 11 д назад

Vulkan добавляет операцию col2im_1d и поддерживает несколько платформ

Релиз llama.cpp b9661 добавляет поддержку операции GGML_OP_COL2IM_1D для Vulkan, используя ограниченный цикл сборки вместо полного сканирования с модулем. Возвращает nullptr для неподдерживаемых типов и включает сборки для macOS, Linux, Android, Windows и openEuler на CPU, Vulkan, CUDA и SYCL.

arxiv arXiv cs.CL · 11 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 11 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

arxiv arXiv cs.CL · 11 д назад

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.CL · 11 д назад

KVEraser: Эффективное локализованное удаление контекста в LLMs

KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.

arxiv arXiv cs.CL · 11 д назад

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

MetaSyn представляет датасет из 442 мета-анализов, экспертно отобранных из Nature Portfolio. Он оценивает двенадцать конфигураций агентов ЛЛМ и выявляет критическую точку в отборе исследований, где ни одна система не восстанавливает более 52,7% истинно включённых источников, несмотря на высокую точность поиска.

arxiv arXiv cs.CL · 11 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.