Code generation
media r/LocalLLaMA · 2 д назад

llama-server webui не отвечает после перекомпиляции

WebUI llama-server не отвечает на запросы, показывая только 'processing...', несмотря на успешную загрузку модели. Интерфейс CLI работает нормально, а конечные точки здоровья сервера отвечают корректно. Проблема появилась после перекомпиляции llama.cpp с поддержкой CUDA.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Обзор Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Обзор описывает опыт использования вариантов Qwopus Coder MTP от Jackrong, сравнивая их с моделями Qwen3.5 и Qwen3.6 в размерах 9B, 27B и 35B параметров. Обзор сосредоточен на производительности и удобстве использования модели 9B-Coder-MTP-GGUF в локальных развертываниях больших языковых моделей.

media r/LocalLLaMA · 2 д назад

Мой локальный сервер простоял 99% времени!

Пользователь сообщает, что его локальный сервер работает с Qwen3.6-27B и OWU и PI для задач программирования, однако остается пустым на 99% времени. Он просит сообщество предложить идеи по более эффективному использованию локальных моделей с полезными задачами, которые выполняются круглосуточно.

media r/LocalLLaMA · 2 д назад

Почему Gemma 4 26b не упоминается чаще?

Пользователи отмечают отсутствие обсуждений вокруг Gemma 4 26b, несмотря на его потенциальную применимость для задач персонального ассистента и RAG на одиночном видеокарте 3090. Модель считается сильным кандидатом для всехобъемлющих локальных приложений ИИ, хотя получает меньше внимания по сравнению с Qwen3.6 или Gemma4 31b.

lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 2 д назад

PRIDE: Метод расширения знаний с использованием привилегированных данных для генерации диалогов с эмпатией

PRIDE представляет метод сжатия знаний, который передает эмпатические рассуждения из больших моделей в более маленькие, используя привилегированные данные, доступные только в период обучения. Метод достигает конкурентоспособных или превосходных результатов на задачах, связанных с эмпатией, за счёт использования структурированных промптов, мультиисточниковой внимания и двойного потерь синхронизации.

arxiv arXiv cs.CL · 2 д назад

LangMAP: адаптивная токенизация на языке для моделей на нескольких языках

LangMAP расширяет UnigramLM для создания токенизации, специфичной для языка, из общего словаря, что позволяет обучать или адаптировать многоплатформенные модели без изменений словаря. Оно улучшает соответствие морфологических границ и листов AST в языках программирования, а также повышает грамматическую допустимость в целевых языках, хотя преимущества варьируются на задачах, основанных на знаниях.

media r/LocalLLaMA · 2 д назад

Модель MiniMax M3 EAGLE3 GGUF теперь совместима с llama.cpp

Декодер MiniMax M3 EAGLE3 был преобразован в формат GGUF и теперь совместим с llama.cpp. Проверки на системе 2x3090, 128 ГБ с использованием UD-Q2_K_XL квантования показали, что производительность увеличилась с 2,3 до 5 токенов в секунду при использовании --fit и сохранении модели в VRAM.

media r/LocalLLaMA · 2 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.

media r/LocalLLaMA · 2 д назад

Кто нуждается в GPU? 64 т/с ген, 285 ПП на процессорах, возрастом 6 лет

Модель gemma-4-26B-A4B, работающая на CPU с двумя процессорами Xeon 6248R, достигает скорости генерации 64 токена в секунду и 285 параллельных процессов, демонстрируя приемлемую производительность на оборудовании, возрастом 6 лет. Пользователь подчеркивает потенциал локальных моделей на CPU, которые могут конкурировать с системами, основанными на GPU, акцентируя внимание на экономичности и доступности.

arxiv arXiv cs.CL · 2 д назад

Байесовская факторизованная адаптация для код-переключения в мультималярных моделях распознавания речи

Новая методика, называемая байесовской факторизованной адаптацией, позволяет высокопроизводительным мультималярным моделям распознавания речи эффективно обрабатывать код-переключение без снижения качества монолингвальных результатов. Она интегрирует знания, связанные с переключением, с минимальным количеством синтетических данных, что снижает количество ошибок транскрипции на 32,87% и общую ошибку распознавания речи на 5,31%.

arxiv arXiv cs.CL · 2 д назад

SamatNext v0.2-B достигает превосходного сохранения курса в малых моделях кода

SamatNext v0.2-B, гибридный декодер с 356M параметрами, достигает 100,0% успешности на этапе 5 и сохраняет 98,8% семантического поведения этапа 3 в контролируемом курсе на языке Python. Он превосходит базовую модель Transformer с одинаковым количеством параметров, которая достигает лишь 97,6% на этапе 5 и сохраняет только 6,0% поведения этапа 5, что указывает на улучшенное сохранение при последовательной тонкой настройке.

arxiv arXiv cs.CL · 2 д назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов до 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нуля-шота и с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на статистически значимом уровне.

media Hugging Face Forums · 2 д назад

Система Buddy: монитор нестабильности на языке Rust с контролем неопределенности на основе NER для многоуровневой инференции LLM

Система Buddy использует монитор нестабильности на языке Rust для обнаружения неопределенности на уровне каждого токена при локальной инференции Gemma 3 4B, направляя только неопределенные токены в Sonnet через NER-ограниченную извлечение спанов и семантическое извлечение. Результаты тестирования показывают, что она достигает точности 71,4% при стоимости $0,21, превосходя паттерн Anthropic Advisor (62,9% при стоимости $0,44) на семи наборах данных Hugging Face, с ключевым улучшением на SQuAD v2 за счет направления фрагментов исходного текста в облачную модель.

arxiv arXiv cs.CL · 2 д назад

Скрытая личная память: динамические мягкие промпты для персонализации LLM

Скрытая личная память (LPM) представляет пользовательские воспоминания в виде компактной, постоянной матрицы из N скрытых слотов. Эти слоты отображаются через общий сетевой слой перекрестного внимания в динамические, входные-условные мягкие промпты, которые добавляются в начало замороженного LLM. LPM превосходит LoRA и Prompt Tuning на 8,8% и 54,4% на PersonaMem v1, снижает использование кэша ключей-значений более чем в 64 раз, достигает такой же точности, как LoRA на LoCoMo, при 120 раз меньше параметров, и эффективно масштабируется при увеличении длины контекста, превосходя полный контекст при 128K токенах.

arxiv arXiv cs.CL · 2 д назад

Фреймворк GRAG разделяет обоснование и персонализацию в разговорных ИИ-моделях

GRAG разделяет обоснование содержания и персонализацию в разговорных моделях, используя универсальные ответы больших языковых моделей как структурную основу. Этот подход позволяет более малым и ресурсоограниченным моделям достигать до 47% улучшения по ROUGE-2 и 36% по BLEU в сравнении с методами, превосходящими текущие стандарты, на различных тестовых наборах.

arxiv arXiv cs.CL · 2 д назад

CAT-Translate: Компактные модели японского-английского перевода превосходят многозначные в реальных задачах

CAT-Translate представляет семейство компактных, открытых моделей, специализирующихся на переводе японского на английский. Используя синтетические параллельные корпуса и двухэтапную методику настройки, модели достигают превосходных результатов на реальных тестах в областях бизнеса, права, медицины, финансов и патентов, превосходя большие многозначные модели в практическом применении.

arxiv arXiv cs.CL · 2 д назад

Контролируемое генерирование медицинских отчетов с помощью точности и полноты

Фреймворк на основе обучения с усилением обеспечивает точный контроль над клинической точностью и полнотой в генерации медицинских отчетов. Интегрируя клиническую награду и обучение относительно групп, модель повышает клиническую эффективность за пределы метрик языковой гладкости, превосходя самые передовые методы на наборе данных MIMIC-CXR.

arxiv arXiv cs.CL · 2 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нуля-шот условиях. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие неисправности включают утечку промпта, халлюцинации и слабое выполнение задач.