Code generation
media r/LocalLLaMA · 9 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 9 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.

arxiv arXiv cs.CL · 9 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.LG · 9 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

media r/LocalLLaMA · 9 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 9 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

blog Simon Willison · 9 д назад

datasette-agent 0.3a0 выпускается с согласия пользователя по операциям записи SQL

datasette-agent 0.3a0 вводит инструмент execute_write_sql, который запрашивает у пользователя разрешение перед записью в базы данных, обеспечивая соблюдение проверок разрешений. Обновление также улучшает чат datasette agent с поддержкой согласия пользователя, новые опции команды, такие как --unsafe для автоматического согласия, и текстовые выводы инструментов для отображения в командной строке.