Code generation
arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

media r/LocalLLaMA · 9 д назад

Я не знал, что возможно скомпилировать llamacpp для одновременной работы с CUDA и Vulkan

Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.

media r/LocalLLaMA · 9 д назад

Minimax M3 (4-bit MLX) первоначальный бенчмарк на Mac Studio M3 с 512 ГБ

Minimax M3 (4-bit MLX) был протестирован на Mac Studio M3 с хранилищем на 512 ГБ. Результаты показывают показатели пропускной способности и задержки при различных размерах запросов, при пиковой производительности 269,1 ток/с для запросов размером 8192 токен и 172,8 ток/с для запроса размером 65 к токен, используя пиковое значение памяти 228 ГБ.

media r/LocalLLaMA · 9 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 9 д назад

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Пост на Reddit обсуждает экономичное железо для запуска моделей Qwen 3.6, как 27B, так и 35B-A3B, отмечая, что RTX 3090 24GB обеспечивает лучшее долгосрочное значение по сравнению с Tesla V100 из-за прекращения производства и появления китайских аналогов. Предлагаемая сборка составляет 1995,65 долларов, включая Ryzen 5 5600X, RTX 3 24GB и необходимые компоненты, с общей стоимостью, которая является ключевой проблемой для пользователей, стремящихся к доступности.

media r/LocalLLaMA · 9 д назад

Основатель Hashicorp утверждает, что локальные модели пока не достаточно хороши

Основатель Hashicorp Митчелл Хашимото утверждает, что локальные языковые модели пока не достаточно хороши. Пользователь Reddit спорит с этим утверждением, указывая, что за год многие люди успешно использовали локальные модели для программирования, при этом только "vibecoders" сталкивались с трудностями.

lab Claude Code Releases · 9 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

media r/LocalLLaMA · 9 д назад

Тред о создании модели сообщества: возможна краудсорсированная тренировка

Модель сообщества может быть создана с использованием краудсорсированного вычислительного ресурса с помощью подхода 'Ветвь-Тренировка-Сшивка'. Участники тренируют прототипную модель на своих устройствах, отправляют подмодели с узкими областями применения, а организаторы соединяют их в крупную модель на основе смеси экспертов (MoE), при этом ключевые решения включают размер прототипа, определение областей применения и протоколы тренировки.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

media r/LocalLLaMA · 9 д назад

Кто-нибудь запускает Qwen 3.6 27b UD Q8 на нескольких GPU?

Пользователь спрашивает, кто-нибудь успешно запускает Qwen 3.6 27b UD Q8 на нескольких GPU, отмечая проблемы с llamacpp и vllm. Модель крашится или зависает при многократных запросах, в llamacpp появляются ошибки CUDA, а vllm завершает работу на полпути, несмотря на то, что при Q5 квантовании всё работает хорошо.

blog Simon Willison · 9 д назад

Георги Герганов хвалит Qwen3.6-27B за задачи по программированию

Георги Герганов подтверждает, что Qwen3.6-27B очень хорошо справляется с задачами по программированию, отмечая его ежедневное использование на локальной аппаратной части, такой как M2 Ultra и RTX 5090. Он описывает использование минимального агента pi с короткой системной подсказкой для синхронизации его с рабочим процессом, подчеркивая полезность этого инструмента для поддержки открытых исходных кодов.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

github llama.cpp · 9 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Изучение контекста и инженерии удержания для локальных ИИ

Пользователь ищет руководство по изучению контекста и инженерии удержания для создания приложений локального ИИ с специализированными сценариями использования. Он выражает интерес к избеганию универсальных ИИ-моделей, таких как Hermes или OpenClaw, и спрашивает, где найти ресурсы, учитывая свой опыт в MCP-серверах и вызове инструментов.

github llama.cpp · 9 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.