Тема · Code generation
lab Claude Code Releases · 9 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

github llama.cpp · 8 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 8 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

github llama.cpp · 9 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

github llama.cpp · 9 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

media r/LocalLLaMA · 8 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 8 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 8 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.

media Latent Space · 8 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

arxiv arXiv cs.LG · 8 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель Transformer для циклов, демонстрирует превосходную производительность по генерации кода и логическому мышлению при двух циклах, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, что указывает на немонотонный эффект количества циклов из-за роста позиционных несоответствий и уменьшения возвратов.

arxiv arXiv cs.LG · 8 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 8 д назад

ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую систему, использующую Issue GitHub для оценки воспроизводимости ML статей. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют по крайней мере один блокирующий элемент, отмеченный человеком, в 90% из 1149 ML статей, подчеркивая их способность обнаруживать видимые сбои и семантические проблемы, хотя точная локализация остается ограниченной.

arxiv arXiv cs.CL · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости ML-статьй. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют хотя бы один семантически связанный барьер в 90% пар статей и репозиториев без выполнения кода.

arxiv arXiv cs.AI · 8 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель на основе трансформера для циклов, демонстрирует значительное улучшение в генерации кода и логическом мышлении при наличии двух циклов, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, свидетельствуя о снижении эффективности и колебательных обновлениях из-за несоответствий позиций, вызванных перекрёстными смещениями между циклами.

arxiv arXiv cs.AI · 8 д назад

ScaFE: Использование больших языковых моделей для извлечения клинически значимых признаков шрамов

ScaFE предлагает использовать большие языковые модели как инженеров признаков для преобразования медицинских изображений в клинически интерпретируемые представления. Генерируя детерминированный код на языке Python из установленных критериев оценки шрамов, метод извлекает признаки, согласованные с клиническими шкалами, такими как шкала Ванкувера. Метод демонстрирует превосходную производительность при ограниченных данных, обладая преимуществами в эффективности использования данных, сохранении конфиденциальности и интерпретируемости.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.