Code generation
lab Cohere Blog · 7 ч назад

Автоматизация поддержки форков с помощью AI-агентов

В этой статье описывается метод автоматизации поддержки форков программного обеспечения с использованием AI-агентов для написания кода, применённый к форку Cohere проекта vLLM. Подход сокращает время, необходимое для интеграции обновлений из основного репозитория (upstream), с недель до дней за счёт замены ручного вмешательства автоматизированным циклом обратной связи.

media r/LocalLLaMA · 12 ч назад

Пользователь Reddit ищет локальную частную LLM для технической документации

Пользователь Reddit ищет рекомендации по локальной большой языковой модели, способной генерировать высокоуровневые и низкоуровневые проекты программного обеспечения. Рабочий процесс включает использование существующих шаблонов, перекрестную ссылку на код и интеграцию с агентными фреймворками, такими как OpenCode через MCP, для получения данных из Confluence и Jira. В настоящее время пользователь полагается на Opus 3.6 через Kiro-cli, но ему требуется решение, обеспечивающее конфиденциальность данных. Ключевые технические ограничения включают необходимость контекстной длины не менее 256k и сильные способности к рассуждению. Автор поста задается вопросом, необходимо ли такое оборудование, как четыре GPU RTX 3090, для достижения такого уровня производительности локально.

media r/LocalLLaMA · 14 ч назад

Создание REPL для LLM-агента на Bash с минимальными зависимостями

Разработчик создал пользовательский цикл REPL для агента, используя исключительно стандартные компоненты командной строки для минимизации зависимостей. Система опирается на каналы (pipes), потоки текста и журналы только для добавления, что тесно соответствует классической философии Unix. Этот подход позволяет гибко внедрять инструменты для инспекции, фильтрации, перенаправления и аудита различных этапов цикла работы агента. Ключевые особенности включают бэкенд по принципу «подключи и работай», ограниченный одним инструментом командной строки, что обеспечивает переносимость между различными провайдерами моделей. Память и контекст агента хранятся в файле истории только для добавления, что упрощает инспекцию, изменение и отмотку назад. Хотя проект протестирован с бэкендом Ollama, его архитектура поддерживает любой REST-интерфейс, совместимый с OpenAI API. Исходный код этого проекта доступен на GitHub под именем репозитория llayer.

arxiv arXiv cs.CL · 19 ч назад

Ткань формального мышления: Объединение строгого синтаксического валидирования с обученными структурными представлениями

Авторы представляют Weave of Formal Thought (WoFT), парадигму, сочетающую строгое синтаксическое валидирование с обученными структурными представлениями для генерации кода. Подход использует формальный движок и ограниченный декодер, которые являются корректными и полными относительно полной спецификации Tree-sitter. За счет дополнения обобщенного LR-разбора спекулятивным лексическим анализом система поддерживает гипотезы состояний лексера параллельно, допуская валидные префиксы программ и отклоняя невалидные. Кроме того, WoFT применяет тонкую настройку с латентными переменными для обучения моделей напрямую вплетать нетерминальные символы грамматики в процесс генерации. Этот метод использует алгоритм переобвешенного wake-sleep для оптимизации важностно-взвешенной нижней границы доказательства (ELBO) поверхностного текста. Модель учится избирательно сохранять формальные выводы в качестве адаптивной структурной черновиковой памяти во время вывода. Эксперименты на Python показывают, что тонкая настройка StarCoder2-3B с данной целевой функцией снижает перетоковую кросс-энтропию на 14,3% по сравнению с базовой линией, использующей только текст.

media r/LocalLLaMA · 21 ч назад

Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования

Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.

arxiv arXiv cs.CL · 1 д назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.

media r/LocalLLaMA · 1 д назад

Я разработал Windows Copilot в виде бесплатной OpenAI-совместимой API

Пользователь создал локальную API, которая имитирует функциональность GPT-4, совместимую с OpenAI, используя бесплатный сервис Microsoft Copilot. Инструмент авторизуется в аккаунте Microsoft один раз, работает локально на устройстве Windows и предоставляет сервер по адресу http://localhost:8000/v1, поддерживающий потоковые и многократные диалоги без необходимости API-ключа или оплаты. Инструмент предназначен для личного и образовательного использования и доступен по ссылке https://github.com/sums001/Windows-Copilot-API.

lab Google DeepMind Blog · 2 д назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

media r/LocalLLaMA · 2 д назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

media r/LocalLLaMA · 2 д назад

Создание LLM с нуля с использованием MLX

Разработчик создал Nano LLM с 20,2 млн параметров на MacBook Air с использованием фреймворка MLX. Проект демонстрирует, что создание крупного языкового моделирования с нуля возможно при минимальных требованиях к оборудованию и базовых знаниях Python.

media r/LocalLLaMA · 2 д назад

веб-интерфейс llama.cpp добавляет опциональное выполнение JavaScript через Web Workers

веб-интерфейс llama.cpp теперь поддерживает выполнение JavaScript, сгенерированного языковыми моделями, в браузере с использованием Web Workers, включенный через опцию. Код выполняется в изолированном iframe с ограничениями безопасности, хотя запросы к сети кажутся отключёнными, и разрешённые возможности сандокса не имеют явной документации.

media r/LocalLLaMA · 2 д назад

Проверка надежности двух GPU: является ли это выгодной покупкой?

Пользователь спрашивает, стоит ли добавить GTX 5060 Ti 16GB к существующей системе RTX 5090 для увеличения объема ОЗУ и возможности запуска более крупных моделей LLM и расширения генерации видео в ComfyUI. Обновление позволит использовать Qwen 3.6 с контекстом 256K и улучшить генерацию видео в разрешении 1440p, хотя рост производительности в ComfyUI будет ограничен из-за текущих ограничений программного обеспечения.

media r/LocalLLaMA · 2 д назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

media r/LocalLLaMA · 2 д назад

Gemma 4 26BA4B странно полезен при IQ3_S

Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.

arxiv arXiv cs.AI · 2 д назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 2 д назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

github llama.cpp · 2 д назад

vulkan-shaders-gen теперь прерывает сборку при ошибках компиляции шейдеров

Инструмент vulkan-shaders-gen теперь обнаруживает и прерывает сборку при сбоях компиляции шейдеров, предотвращая создание повреждённой библиотеки libggml-vulkan. Это исправление решает предыдущую проблему, при которой успешная сборка скрывала сбои на этапе выполнения, и включает улучшения обработки ошибок и управления атомарными флагами на разных платформах.

arxiv arXiv cs.LG · 2 д назад

Кадровая система на основе TRIZ улучшает креативный дизайн

Кадровая система на основе TRIZ использует большие языковые модели для генерации креативных, редактируемых 3D моделей CAD, интегрируя изобретательские принципы из патентной информации. В случае исследования дизайна стула она обеспечила снижение массы на 4,0-14,7% при сохранении структурной целостности за счёт принципов, таких как сегментация и композитные материалы.

arxiv arXiv cs.LG · 2 д назад

CAT-Translate: компактные модели перевода японского-английского языка

CAT-Translate представляет семейство малых открытых моделей (от 0,8B до 7B параметров), специализированных на двустороннем переводе японского-английского языка. Используя синтетические параллельные корпуса и двухэтапную методику обучения с применением Multi-Objective GRPO, модели превосходят многозначные модели на реальных тестовых наборах в областях бизнеса, права, медицины, финансов и патентов.

arxiv arXiv cs.LG · 2 д назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.