Code generation
arxiv arXiv cs.CL · 2 д назад

CAT-Translate: Компактные модели японского-английского перевода превосходят многозначные в реальных задачах

CAT-Translate представляет семейство компактных, открытых моделей, специализирующихся на переводе японского на английский. Используя синтетические параллельные корпуса и двухэтапную методику настройки, модели достигают превосходных результатов на реальных тестах в областях бизнеса, права, медицины, финансов и патентов, превосходя большие многозначные модели в практическом применении.

arxiv arXiv cs.CL · 2 д назад

Контролируемое генерирование медицинских отчетов с помощью точности и полноты

Фреймворк на основе обучения с усилением обеспечивает точный контроль над клинической точностью и полнотой в генерации медицинских отчетов. Интегрируя клиническую награду и обучение относительно групп, модель повышает клиническую эффективность за пределы метрик языковой гладкости, превосходя самые передовые методы на наборе данных MIMIC-CXR.

arxiv arXiv cs.CL · 2 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нуля-шот условиях. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие неисправности включают утечку промпта, халлюцинации и слабое выполнение задач.

media Hugging Face Forums · 2 д назад

Модель музыки на основе ИИ работает в реальном времени на большинстве процессоров в браузере

NanoMaestro Realtime — это модель музыки на основе ИИ размером 50 МБ с 13 миллионами параметров, которая генерирует музыку на пианино в реальном времени с использованием двухслойного LSTM. Она работает локально в браузере через ONNX и Transformers.js с WASM, не требуя GPU или серверной стороны, и работает на старых моделях Raspberry Pi.

media r/LocalLLaMA · 2 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

blog Simon Willison · 2 д назад

Перенос модели Moebius 0.2B для inpainting изображений в браузер с использованием Claude Code

Модель Moebius 0.2B для inpainting изображений успешно была перенесена для работы в браузере с использованием WebGPU и ONNX Runtime. Проект, инициированный с помощью Claude Code, преобразует веса модели в ONNX и развертывает их через Hugging Face, с простым веб-интерфейсом, доступным по адресу simonw.github.io/moebius-web/.

media r/LocalLLaMA · 3 д назад

Потенциал Gemma 4 превзойти Mistral и Qwen3.6 за счёт тонкой настройки

Gemma 4 демонстрирует сильную базовую производительность и уникальные функции, такие как поддержка глобального MTP, QAT и встроенные визуальные возможности. Хотя на данный момент у модели отсутствуют широкие тонкие настройки, модели, такие как MeroMero, Equinox и Gembrain, уже продемонстрировали высокое качество, что указывает на то, что при совместных усилиях Gemma 4 может превзойти Mistral или Qwen3.6 в определённых задачах, таких как программирование и креативное письмо.

lab Claude Code Releases · 3 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 3 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

Лучшая локальная модель для преобразования текста в структурированный JSON

Пользователи ищут локальную модель, эффективно преобразующую неструктурированный текст в действительный JSON на основе заданной схемы. Среди проверенных моделей модель Qwen 3.6 35B a3b показывает сильную производительность, соответствующую качеству более крупных моделей, таких как GPT-120B, при этом более стабильна на локальных машинах, чем GPT-20B.

media r/LocalLLaMA · 3 д назад

NEX-N2-mini утверждает достижение парето-оптимальности в эффективности мышления

Модель NEX-N2-mini утверждает, что достигает уровня мышления 3,5 и 3,6 с значительно меньшим количеством токенов мышления. Проверки показывают, что она превосходит другие модели на основе MoE по эффективности, снижая количество потерянных токенов, при этом сохраняя высокое качество мышления.

media r/LocalLLaMA · 3 д назад

Gemma4-12B-QAT Uncensored Balanced Released with 60% Speed Boost via MTP

Модель Gemma4-12B-QAT Uncensored Balanced теперь доступна, с улучшением скорости на 60% за счёт спекулятивного декодирования на основе многотокенного предсказания (MTP). В ней используется квантование Q4_K_M, поддержка визуальных данных через mmproj и стабильное генерирование без циклов или смещения контекста, что делает её идеальной для задач креативного написания и эмоционального интеллекта.

media r/LocalLLaMA · 3 д назад

Одинаковая модель, одинаковый промпт, 4 разных агента дают разную качество кода

Самостоятельная модель Qwen3.6-27B с идентичным промптом и одинаковым оборудованием сгенерировала четыре различных HTML/JavaScript-симуляции солнечной системы. Структура агента значительно влияла на результат: opencode сгенерировал чистый, стабильный код с точными физическими расчетами; pi продемонстрировал устойчивость и согласованность координат; hermes предложил визуально привлекательные, но физически некорректные результаты; qwen code сгенерировал минимальный и грубый код. Результаты показывают, как проектирование агента формирует качество, корректность и стабильность кода, несмотря на одинаковую модель и промпт.

media Interconnects · 3 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.

media r/LocalLLaMA · 3 д назад

Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti

Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.

media r/LocalLLaMA · 3 д назад

Я создал инструмент, который позволяет избегать ручного переключения моделей на моем GPU объёмом 8 ГБ

Я разработал Prompt-Chain — приложение на Streamlit, которое соединяет небольшую модель Prompter с большой моделью Coder в одну цепочку. Оно автоматически переключает VRAM при переходе от уточнения промпта к генерации кода, устраняя ручное переключение моделей и снижая количество потерянных токенов из-за плохо сформулированных промптов.

media r/LocalLLaMA · 3 д назад

GLM5.2 работает на 7tg на 4х GeForce 3090 с 192 ГБ DDR5 в бюджетном сборке

Пользователь делится своими настройками домашнего лабораторного стенда с четырьмя видеокартами GeForce 3090 и 192 ГБ ОЗУ DDR5, настроенных на частоту 5600 МГц. Они запускают GLM5.2 на уровне 7 терагига (tg) как планировщик, MiniMax 2.7 на уровне 45tg в ОЗУ для программирования, и Qwen3.6 27B на уровне q8 для тестирования, всё на consumer-grade оборудовании из-за финансовых соображений.

media r/LocalLLaMA · 3 д назад

Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества

Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.