Code generation
media r/LocalLLaMA · 10 ч назад

Я разработал Windows Copilot в виде бесплатной OpenAI-совместимой API

Пользователь создал локальную API, которая имитирует функциональность GPT-4, совместимую с OpenAI, используя бесплатный сервис Microsoft Copilot. Инструмент авторизуется в аккаунте Microsoft один раз, работает локально на устройстве Windows и предоставляет сервер по адресу http://localhost:8000/v1, поддерживающий потоковые и многократные диалоги без необходимости API-ключа или оплаты. Инструмент предназначен для личного и образовательного использования и доступен по ссылке https://github.com/sums001/Windows-Copilot-API.

lab Google DeepMind Blog · 10 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

media r/LocalLLaMA · 11 ч назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

media r/LocalLLaMA · 12 ч назад

Создание LLM с нуля с использованием MLX

Разработчик создал Nano LLM с 20,2 млн параметров на MacBook Air с использованием фреймворка MLX. Проект демонстрирует, что создание крупного языкового моделирования с нуля возможно при минимальных требованиях к оборудованию и базовых знаниях Python.

media r/LocalLLaMA · 15 ч назад

веб-интерфейс llama.cpp добавляет опциональное выполнение JavaScript через Web Workers

веб-интерфейс llama.cpp теперь поддерживает выполнение JavaScript, сгенерированного языковыми моделями, в браузере с использованием Web Workers, включенный через опцию. Код выполняется в изолированном iframe с ограничениями безопасности, хотя запросы к сети кажутся отключёнными, и разрешённые возможности сандокса не имеют явной документации.

media r/LocalLLaMA · 16 ч назад

Проверка надежности двух GPU: является ли это выгодной покупкой?

Пользователь спрашивает, стоит ли добавить GTX 5060 Ti 16GB к существующей системе RTX 5090 для увеличения объема ОЗУ и возможности запуска более крупных моделей LLM и расширения генерации видео в ComfyUI. Обновление позволит использовать Qwen 3.6 с контекстом 256K и улучшить генерацию видео в разрешении 1440p, хотя рост производительности в ComfyUI будет ограничен из-за текущих ограничений программного обеспечения.

media r/LocalLLaMA · 16 ч назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

media r/LocalLLaMA · 16 ч назад

Gemma 4 26BA4B странно полезен при IQ3_S

Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.

arxiv arXiv cs.AI · 17 ч назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 17 ч назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

github llama.cpp · 18 ч назад

vulkan-shaders-gen теперь прерывает сборку при ошибках компиляции шейдеров

Инструмент vulkan-shaders-gen теперь обнаруживает и прерывает сборку при сбоях компиляции шейдеров, предотвращая создание повреждённой библиотеки libggml-vulkan. Это исправление решает предыдущую проблему, при которой успешная сборка скрывала сбои на этапе выполнения, и включает улучшения обработки ошибок и управления атомарными флагами на разных платформах.

arxiv arXiv cs.LG · 19 ч назад

Кадровая система на основе TRIZ улучшает креативный дизайн

Кадровая система на основе TRIZ использует большие языковые модели для генерации креативных, редактируемых 3D моделей CAD, интегрируя изобретательские принципы из патентной информации. В случае исследования дизайна стула она обеспечила снижение массы на 4,0-14,7% при сохранении структурной целостности за счёт принципов, таких как сегментация и композитные материалы.

arxiv arXiv cs.LG · 19 ч назад

CAT-Translate: компактные модели перевода японского-английского языка

CAT-Translate представляет семейство малых открытых моделей (от 0,8B до 7B параметров), специализированных на двустороннем переводе японского-английского языка. Используя синтетические параллельные корпуса и двухэтапную методику обучения с применением Multi-Objective GRPO, модели превосходят многозначные модели на реальных тестовых наборах в областях бизнеса, права, медицины, финансов и патентов.

arxiv arXiv cs.LG · 20 ч назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.

media Hugging Face Forums · 20 ч назад

Я создал сервер MCP на Go для ИИ-агентов - 200 строковый тьюториал

200-строчный тьюториал на Go демонстрирует создание лёгкого сервера протокола контекста модели, используя параллелизм и простоту языка Go. Сервер позволяет ИИ-агентам, таким как Claude, получать структурированные данные и приложения на Go, что потенциально делает их в 10 раз более полезными.

media Hugging Face Forums · 20 ч назад

Лучшая модель для локальной работы и работы в Unity с MCP при 12 ГБ VRAM

Пользователь ищет лёгкую модель LLM, предназначенную для Unity 6.5 с MCP, работающую в пределах 12 ГБ VRAM. В настоящее время он использует бесплатные версии Cursor и Claude, однако считает их недостаточными, и спрашивает, существуют ли специализированные модели или альтернативные решения.

media Hugging Face Forums · 20 ч назад

Wav2vec2 и WavLM классификаторы аудио застряли на 33% точности

Пользователь сообщает, что настройка wav2vec2-base или wavlm-base-plus для классификации аудио на 3 класса достигает лишь 33% точности, что соответствует уровню случайности. Модель обучалась с обновлением только заголовка классификации, с использованием заполненных кусков длительностью 1,0 секунды без масок внимания, и с коэффициентом обучения 1e-3, что приводит к плохим результатам, несмотря на несбалансированность классов и короткие входные куски.

media r/LocalLLaMA · 21 ч назад

llama-server аварийно останавливается при использовании промпта 'вставленного как файл' для извлечения данных из изображения

llama-server аварийно останавливается, когда пользователь вставляет длинный промпт в виде текстового файла вместе с изображением, рассматривая его как вложение файла. Сервер работает корректно при отправке промпта в меньших блоках, но несёт сбой при объединении полного промпта в один текстовый блок и отправке вместе с изображением.

media r/LocalLLaMA · 21 ч назад

Qwen выпустил MoE на 35 миллиардов параметров для имитации среды агента

Qwen представил модель Qwen-AgentWorld-35B-A3B, MoE на 35 миллиардов параметров, при этом у неё около 3 миллиардов активных параметров на токен. Модель обучена на имитации ответов от MCP, терминала, программирования, Android, веб-интерфейсов и графических интерфейсов операционных систем путем предсказания следующих наблюдений после действий агента, что позволяет эффективно обучать агентов и имитировать среду без выполнения реальных инструментов.

arxiv arXiv cs.CL · 22 ч назад

SHERLOC: структурированная локализация диагностики для агентов восстановления кода

SHERLOC представляет тренировку-бесплатную систему, которая объединяет логический LLM с компактными инструментами репозитория и самореконструкцией. Она достигает наилучшей точности и полноты локализации на SWE-Bench, повышая показатель восстановления агентов на 5,95 процентных пунктов, одновременно снижая использование локализации и общего количества токенов на 36,7% и 23,1% соответственно.