Code generation
media r/LocalLLaMA · 10 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 10 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 10 д назад

Изучение контекста и инженерии удержания для локальных ИИ

Пользователь ищет руководство по изучению контекста и инженерии удержания для создания приложений локального ИИ с специализированными сценариями использования. Он выражает интерес к избеганию универсальных ИИ-моделей, таких как Hermes или OpenClaw, и спрашивает, где найти ресурсы, учитывая свой опыт в MCP-серверах и вызове инструментов.

github llama.cpp · 10 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

AeroLLM: быстрая, открытая ИИ-приложение для процессоров Apple Silicon

AeroLLM — это быстрая, оптимизированная и открытая чат-приложение, разработанное для устройств на процессорах Apple Silicon с использованием бэкенда MLX. Оно поддерживает локальные задачи по ИИ, такие как текст-в-голос, голос-в-текст и большие языковые модели, с загрузкой моделей напрямую с Hugging Face в зависимости от доступной ОЗУ. Приложение прошло сертификацию из-за отсутствия членства в Apple Developer, однако пользователи могут следовать указанным шагам, чтобы запустить его как подписанное приложение macOS.

media r/LocalLLaMA · 10 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 10 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.

arxiv arXiv cs.CL · 10 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.CL · 10 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.LG · 10 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 10 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 10 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

blog Simon Willison · 10 д назад

datasette-agent 0.3a0 выпускается с согласия пользователя по операциям записи SQL

datasette-agent 0.3a0 вводит инструмент execute_write_sql, который запрашивает у пользователя разрешение перед записью в базы данных, обеспечивая соблюдение проверок разрешений. Обновление также улучшает чат datasette agent с поддержкой согласия пользователя, новые опции команды, такие как --unsafe для автоматического согласия, и текстовые выводы инструментов для отображения в командной строке.