Code generation — korshunov.ai

Code generation Страница 4 / 14

Система Buddy: монитор нестабильности на языке Rust с контролем неопределенности на основе NER для многоуровневой инференции LLM

Система Buddy использует монитор нестабильности на языке Rust для обнаружения неопределенности на уровне каждого токена при локальной инференции Gemma 3 4B, направляя только неопределенные токены в Sonnet через NER-ограниченную извлечение спанов и семантическое извлечение. Результаты тестирования показывают, что она достигает точности 71,4% при стоимости $0,21, превосходя паттерн Anthropic Advisor (62,9% при стоимости $0,44) на семи наборах данных Hugging Face, с ключевым улучшением на SQuAD v2 за счет направления фрагментов исходного текста в облачную модель.

arxiv arXiv cs.CL · 3 д назад

Скрытая личная память: динамические мягкие промпты для персонализации LLM

Скрытая личная память (LPM) представляет пользовательские воспоминания в виде компактной, постоянной матрицы из N скрытых слотов. Эти слоты отображаются через общий сетевой слой перекрестного внимания в динамические, входные-условные мягкие промпты, которые добавляются в начало замороженного LLM. LPM превосходит LoRA и Prompt Tuning на 8,8% и 54,4% на PersonaMem v1, снижает использование кэша ключей-значений более чем в 64 раз, достигает такой же точности, как LoRA на LoCoMo, при 120 раз меньше параметров, и эффективно масштабируется при увеличении длины контекста, превосходя полный контекст при 128K токенах.

arxiv arXiv cs.CL · 3 д назад

Фреймворк GRAG разделяет обоснование и персонализацию в разговорных ИИ-моделях

GRAG разделяет обоснование содержания и персонализацию в разговорных моделях, используя универсальные ответы больших языковых моделей как структурную основу. Этот подход позволяет более малым и ресурсоограниченным моделям достигать до 47% улучшения по ROUGE-2 и 36% по BLEU в сравнении с методами, превосходящими текущие стандарты, на различных тестовых наборах.

arxiv arXiv cs.CL · 3 д назад

CAT-Translate: Компактные модели японского-английского перевода превосходят многозначные в реальных задачах

CAT-Translate представляет семейство компактных, открытых моделей, специализирующихся на переводе японского на английский. Используя синтетические параллельные корпуса и двухэтапную методику настройки, модели достигают превосходных результатов на реальных тестах в областях бизнеса, права, медицины, финансов и патентов, превосходя большие многозначные модели в практическом применении.

arxiv arXiv cs.CL · 3 д назад

Контролируемое генерирование медицинских отчетов с помощью точности и полноты

Фреймворк на основе обучения с усилением обеспечивает точный контроль над клинической точностью и полнотой в генерации медицинских отчетов. Интегрируя клиническую награду и обучение относительно групп, модель повышает клиническую эффективность за пределы метрик языковой гладкости, превосходя самые передовые методы на наборе данных MIMIC-CXR.

arxiv arXiv cs.CL · 3 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нуля-шот условиях. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие неисправности включают утечку промпта, халлюцинации и слабое выполнение задач.

media MarkTechPost · 3 д назад

xAI запускает /goal в Grok Build для автономного программирования

xAI представила /goal, режим в Grok Build, который позволяет выполнять долгосрочные автономные задачи по программированию. Функция планирует, выполняет проверку прогресса и проверяет результаты, анализируя код, проверяя веб-страницы или запуская скрипты, обеспечивая завершение перед объявлением успеха. Доступ требует подписки SuperGrok или X Premium Plus.

media Hugging Face Forums · 3 д назад

Модель музыки на основе ИИ работает в реальном времени на большинстве процессоров в браузере

NanoMaestro Realtime — это модель музыки на основе ИИ размером 50 МБ с 13 миллионами параметров, которая генерирует музыку на пианино в реальном времени с использованием двухслойного LSTM. Она работает локально в браузере через ONNX и Transformers.js с WASM, не требуя GPU или серверной стороны, и работает на старых моделях Raspberry Pi.

media r/LocalLLaMA · 3 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

blog Simon Willison · 3 д назад

Перенос модели Moebius 0.2B для inpainting изображений в браузер с использованием Claude Code

Модель Moebius 0.2B для inpainting изображений успешно была перенесена для работы в браузере с использованием WebGPU и ONNX Runtime. Проект, инициированный с помощью Claude Code, преобразует веса модели в ONNX и развертывает их через Hugging Face, с простым веб-интерфейсом, доступным по адресу simonw.github.io/moebius-web/.

media r/LocalLLaMA · 3 д назад

Потенциал Gemma 4 превзойти Mistral и Qwen3.6 за счёт тонкой настройки

Gemma 4 демонстрирует сильную базовую производительность и уникальные функции, такие как поддержка глобального MTP, QAT и встроенные визуальные возможности. Хотя на данный момент у модели отсутствуют широкие тонкие настройки, модели, такие как MeroMero, Equinox и Gembrain, уже продемонстрировали высокое качество, что указывает на то, что при совместных усилиях Gemma 4 может превзойти Mistral или Qwen3.6 в определённых задачах, таких как программирование и креативное письмо.

lab Claude Code Releases · 3 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 3 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

lab OpenAI News · 3 д назад

Jason Liu использует Codex для управления длительными проектами

Jason Liu демонстрирует, как Codex помогает сохранять контекст и управлять сложными проектами, обеспечивая бесперебойное продолжение работы за пределами одного запроса.

lab OpenAI News · 4 д назад

OpenAI представил инструменты безопасности Daybreak

OpenAI представил Codex Security и GPT-5.5-Cyber как часть своей системы Daybreak. Эти инструменты направлены на то, чтобы помочь организациям выявлять, проверять и устранять уязвимости в масштабе.

media r/LocalLLaMA · 4 д назад

Лучшая локальная модель для преобразования текста в структурированный JSON

Пользователи ищут локальную модель, эффективно преобразующую неструктурированный текст в действительный JSON на основе заданной схемы. Среди проверенных моделей модель Qwen 3.6 35B a3b показывает сильную производительность, соответствующую качеству более крупных моделей, таких как GPT-120B, при этом более стабильна на локальных машинах, чем GPT-20B.

media r/LocalLLaMA · 4 д назад

NEX-N2-mini утверждает достижение парето-оптимальности в эффективности мышления

Модель NEX-N2-mini утверждает, что достигает уровня мышления 3,5 и 3,6 с значительно меньшим количеством токенов мышления. Проверки показывают, что она превосходит другие модели на основе MoE по эффективности, снижая количество потерянных токенов, при этом сохраняя высокое качество мышления.

media r/LocalLLaMA · 4 д назад

Gemma4-12B-QAT Uncensored Balanced Released with 60% Speed Boost via MTP

Модель Gemma4-12B-QAT Uncensored Balanced теперь доступна, с улучшением скорости на 60% за счёт спекулятивного декодирования на основе многотокенного предсказания (MTP). В ней используется квантование Q4_K_M, поддержка визуальных данных через mmproj и стабильное генерирование без циклов или смещения контекста, что делает её идеальной для задач креативного написания и эмоционального интеллекта.

media r/LocalLLaMA · 4 д назад

Одинаковая модель, одинаковый промпт, 4 разных агента дают разную качество кода

Самостоятельная модель Qwen3.6-27B с идентичным промптом и одинаковым оборудованием сгенерировала четыре различных HTML/JavaScript-симуляции солнечной системы. Структура агента значительно влияла на результат: opencode сгенерировал чистый, стабильный код с точными физическими расчетами; pi продемонстрировал устойчивость и согласованность координат; hermes предложил визуально привлекательные, но физически некорректные результаты; qwen code сгенерировал минимальный и грубый код. Результаты показывают, как проектирование агента формирует качество, корректность и стабильность кода, несмотря на одинаковую модель и промпт.

media Interconnects · 4 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.