Code generation
media r/LocalLLaMA · 2 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

blog Simon Willison · 2 д назад

OPFS + Pyodide test harness для редактирования SQLite в браузере

Разработан тестовый инструмент для исследования использования OPFS (Origin Private File System) с Pyodide с целью включения редактирования постоянных файлов SQLite в браузере. Инструмент предназначен для проверки способности Datasette Lite изменять локальные базы данных SQLite напрямую в браузере на разных браузерах.

media r/LocalLLaMA · 2 д назад

Новые Qwen-27B IQ4_KS и IQ4_KS_KT для ik_llama.cpp

Выпущены две новые GGUF-квантования для Qwen-27B для ik_llama.cpp, оптимизированные для 16 ГБ VRAM на GPU NVIDIA. Первое, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, улучшает логическое мышление за счёт снижения общего знания, при перплекситете 7.4131. Второе, Qwen3.6-27-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, применяет квантование Trellis (iq4_kt) селективно к тензорам с близкой гауссовой распределённостью, достигая перплекситете 7.4091, что показывает минимальное снижение производительности.

media r/LocalLLaMA · 2 д назад

Можно ли запустить GLM5.2 на 4 серверах AMD EPYC с 512 ГБ ОЗУ каждый?

Пользователь спрашивает, можно ли запустить модель GLM 5.2 размером 467 ГБ на четырёх серверах, каждый из которых имеет 51-2 ГБ ОЗУ и пропускную способность памяти 409,6 ГБ/с, используя только CPU для инференса с Unsloth. Они рассматривают возможность разделения модели между узлами для ускорения обработки токенов или использование версий с 8-битной точностью в двух кластерах для обработки более крупных моделей и улучшения производительности.

media Together AI Blog · 2 д назад

Frontier LLMs Struggle to Write Fast Multi-GPU Kernels

ParallelKernelBench оценивает LLMs по написанию быстрых много-GPU CUDA-ядер для 87 реальных задач. Наиболее сильная модель генерирует ядра, которые работают на треть скорости оптимальных реализаций, хотя несколько выводов превосходят любые существующие публичные коды.

lab Anthropic News · 3 д назад

Введение Claude Tag для команд Slack

Claude Tag позволяет командам в Slack помечать @Claude для делегирования задач, с доступом к выбранным каналам, инструментам и кодовым базам. Он изучает контекст канала, работает асинхронно и принимает инициативу, активно обновляя пользователей о релевантной информации. Сегодня 65% кода продукта команды Anthropic создается внутренним Claude Tag, и он теперь доступен в бета-версии для клиентов Claude Enterprise и Team.

media r/LocalLLaMA · 3 д назад

llama-server webui не отвечает после перекомпиляции

WebUI llama-server не отвечает на запросы, показывая только 'processing...', несмотря на успешную загрузку модели. Интерфейс CLI работает нормально, а конечные точки здоровья сервера отвечают корректно. Проблема появилась после перекомпиляции llama.cpp с поддержкой CUDA.

media r/LocalLLaMA · 3 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 3 д назад

Обзор Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Обзор описывает опыт использования вариантов Qwopus Coder MTP от Jackrong, сравнивая их с моделями Qwen3.5 и Qwen3.6 в размерах 9B, 27B и 35B параметров. Обзор сосредоточен на производительности и удобстве использования модели 9B-Coder-MTP-GGUF в локальных развертываниях больших языковых моделей.

media r/LocalLLaMA · 3 д назад

Мой локальный сервер простоял 99% времени!

Пользователь сообщает, что его локальный сервер работает с Qwen3.6-27B и OWU и PI для задач программирования, однако остается пустым на 99% времени. Он просит сообщество предложить идеи по более эффективному использованию локальных моделей с полезными задачами, которые выполняются круглосуточно.

media r/LocalLLaMA · 3 д назад

Почему Gemma 4 26b не упоминается чаще?

Пользователи отмечают отсутствие обсуждений вокруг Gemma 4 26b, несмотря на его потенциальную применимость для задач персонального ассистента и RAG на одиночном видеокарте 3090. Модель считается сильным кандидатом для всехобъемлющих локальных приложений ИИ, хотя получает меньше внимания по сравнению с Qwen3.6 или Gemma4 31b.

lab Mistral AI News · 3 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 3 д назад

PRIDE: Метод расширения знаний с использованием привилегированных данных для генерации диалогов с эмпатией

PRIDE представляет метод сжатия знаний, который передает эмпатические рассуждения из больших моделей в более маленькие, используя привилегированные данные, доступные только в период обучения. Метод достигает конкурентоспособных или превосходных результатов на задачах, связанных с эмпатией, за счёт использования структурированных промптов, мультиисточниковой внимания и двойного потерь синхронизации.

arxiv arXiv cs.CL · 3 д назад

LangMAP: адаптивная токенизация на языке для моделей на нескольких языках

LangMAP расширяет UnigramLM для создания токенизации, специфичной для языка, из общего словаря, что позволяет обучать или адаптировать многоплатформенные модели без изменений словаря. Оно улучшает соответствие морфологических границ и листов AST в языках программирования, а также повышает грамматическую допустимость в целевых языках, хотя преимущества варьируются на задачах, основанных на знаниях.

media r/LocalLLaMA · 3 д назад

Модель MiniMax M3 EAGLE3 GGUF теперь совместима с llama.cpp

Декодер MiniMax M3 EAGLE3 был преобразован в формат GGUF и теперь совместим с llama.cpp. Проверки на системе 2x3090, 128 ГБ с использованием UD-Q2_K_XL квантования показали, что производительность увеличилась с 2,3 до 5 токенов в секунду при использовании --fit и сохранении модели в VRAM.

media r/LocalLLaMA · 3 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.

media r/LocalLLaMA · 3 д назад

Кто нуждается в GPU? 64 т/с ген, 285 ПП на процессорах, возрастом 6 лет

Модель gemma-4-26B-A4B, работающая на CPU с двумя процессорами Xeon 6248R, достигает скорости генерации 64 токена в секунду и 285 параллельных процессов, демонстрируя приемлемую производительность на оборудовании, возрастом 6 лет. Пользователь подчеркивает потенциал локальных моделей на CPU, которые могут конкурировать с системами, основанными на GPU, акцентируя внимание на экономичности и доступности.

arxiv arXiv cs.CL · 3 д назад

Байесовская факторизованная адаптация для код-переключения в мультималярных моделях распознавания речи

Новая методика, называемая байесовской факторизованной адаптацией, позволяет высокопроизводительным мультималярным моделям распознавания речи эффективно обрабатывать код-переключение без снижения качества монолингвальных результатов. Она интегрирует знания, связанные с переключением, с минимальным количеством синтетических данных, что снижает количество ошибок транскрипции на 32,87% и общую ошибку распознавания речи на 5,31%.

arxiv arXiv cs.CL · 3 д назад

SamatNext v0.2-B достигает превосходного сохранения курса в малых моделях кода

SamatNext v0.2-B, гибридный декодер с 356M параметрами, достигает 100,0% успешности на этапе 5 и сохраняет 98,8% семантического поведения этапа 3 в контролируемом курсе на языке Python. Он превосходит базовую модель Transformer с одинаковым количеством параметров, которая достигает лишь 97,6% на этапе 5 и сохраняет только 6,0% поведения этапа 5, что указывает на улучшенное сохранение при последовательной тонкой настройке.

arxiv arXiv cs.CL · 3 д назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов до 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нуля-шота и с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на статистически значимом уровне.