Тема · Code generation
lab Claude Code Releases · 9 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

github llama.cpp · 9 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 9 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.CL · 8 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 8 д назад

Несоответствие кодовых стандартов агентной разработке программного обеспечения

Текущие кодовые стандарты были разработаны до появления агентной разработки программного обеспечения и не отражают сложность реальных систем. Они смешивают производительность модели с полным решением, игнорируют допустимые альтернативные решения и не содержат сигналов обратной связи на уровне отдельных компонентов, что делает итеративное улучшение сложным.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

media r/LocalLLaMA · 8 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

blog Simon Willison · 9 д назад

Георги Герганов хвалит Qwen3.6-27B за задачи по программированию

Георги Герганов подтверждает, что Qwen3.6-27B очень хорошо справляется с задачами по программированию, отмечая его ежедневное использование на локальной аппаратной части, такой как M2 Ultra и RTX 5090. Он описывает использование минимального агента pi с короткой системной подсказкой для синхронизации его с рабочим процессом, подчеркивая полезность этого инструмента для поддержки открытых исходных кодов.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

arxiv arXiv cs.CL · 9 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.