Code generation
arxiv arXiv cs.AI · 9 д назад

Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.

arxiv arXiv cs.AI · 9 д назад

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.CL · 9 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 9 д назад

Несоответствие кодовых стандартов агентной разработке программного обеспечения

Текущие кодовые стандарты были разработаны до появления агентной разработки программного обеспечения и не отражают сложность реальных систем. Они смешивают производительность модели с полным решением, игнорируют допустимые альтернативные решения и не содержат сигналов обратной связи на уровне отдельных компонентов, что делает итеративное улучшение сложным.

arxiv arXiv cs.CL · 9 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 9 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 9 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

media r/LocalLLaMA · 9 д назад

Я не знал, что возможно скомпилировать llamacpp для одновременной работы с CUDA и Vulkan

Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.

media r/LocalLLaMA · 9 д назад

Minimax M3 (4-bit MLX) первоначальный бенчмарк на Mac Studio M3 с 512 ГБ

Minimax M3 (4-bit MLX) был протестирован на Mac Studio M3 с хранилищем на 512 ГБ. Результаты показывают показатели пропускной способности и задержки при различных размерах запросов, при пиковой производительности 269,1 ток/с для запросов размером 8192 токен и 172,8 ток/с для запроса размером 65 к токен, используя пиковое значение памяти 228 ГБ.

media r/LocalLLaMA · 9 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 9 д назад

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Пост на Reddit обсуждает экономичное железо для запуска моделей Qwen 3.6, как 27B, так и 35B-A3B, отмечая, что RTX 3090 24GB обеспечивает лучшее долгосрочное значение по сравнению с Tesla V100 из-за прекращения производства и появления китайских аналогов. Предлагаемая сборка составляет 1995,65 долларов, включая Ryzen 5 5600X, RTX 3 24GB и необходимые компоненты, с общей стоимостью, которая является ключевой проблемой для пользователей, стремящихся к доступности.

media r/LocalLLaMA · 9 д назад

Основатель Hashicorp утверждает, что локальные модели пока не достаточно хороши

Основатель Hashicorp Митчелл Хашимото утверждает, что локальные языковые модели пока не достаточно хороши. Пользователь Reddit спорит с этим утверждением, указывая, что за год многие люди успешно использовали локальные модели для программирования, при этом только "vibecoders" сталкивались с трудностями.

lab Claude Code Releases · 9 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

media r/LocalLLaMA · 9 д назад

Тред о создании модели сообщества: возможна краудсорсированная тренировка

Модель сообщества может быть создана с использованием краудсорсированного вычислительного ресурса с помощью подхода 'Ветвь-Тренировка-Сшивка'. Участники тренируют прототипную модель на своих устройствах, отправляют подмодели с узкими областями применения, а организаторы соединяют их в крупную модель на основе смеси экспертов (MoE), при этом ключевые решения включают размер прототипа, определение областей применения и протоколы тренировки.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

media r/LocalLLaMA · 10 д назад

Кто-нибудь запускает Qwen 3.6 27b UD Q8 на нескольких GPU?

Пользователь спрашивает, кто-нибудь успешно запускает Qwen 3.6 27b UD Q8 на нескольких GPU, отмечая проблемы с llamacpp и vllm. Модель крашится или зависает при многократных запросах, в llamacpp появляются ошибки CUDA, а vllm завершает работу на полпути, несмотря на то, что при Q5 квантовании всё работает хорошо.

blog Simon Willison · 10 д назад

Георги Герганов хвалит Qwen3.6-27B за задачи по программированию

Георги Герганов подтверждает, что Qwen3.6-27B очень хорошо справляется с задачами по программированию, отмечая его ежедневное использование на локальной аппаратной части, такой как M2 Ultra и RTX 5090. Он описывает использование минимального агента pi с короткой системной подсказкой для синхронизации его с рабочим процессом, подчеркивая полезность этого инструмента для поддержки открытых исходных кодов.

media r/LocalLLaMA · 10 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

github llama.cpp · 10 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.