Code generation
arxiv arXiv cs.CL · 1 д назад

SHERLOC: структурированная локализация диагностики для агентов восстановления кода

SHERLOC представляет тренировку-бесплатную систему, которая объединяет логический LLM с компактными инструментами репозитория и самореконструкцией. Она достигает наилучшей точности и полноты локализации на SWE-Bench, повышая показатель восстановления агентов на 5,95 процентных пунктов, одновременно снижая использование локализации и общего количества токенов на 36,7% и 23,1% соответственно.

arxiv arXiv cs.CL · 1 д назад

Соответствие задачи и рамочной структуры для моделей кодировщиков-декодеров

Этот исследовательский проект представляет рамку Match Task to Objective (MTO), которая позволяет сопоставить цели предобучения и настройки с конкретными задачами. Рамка обеспечивает автоматическую, неподконтрольную адаптацию данных и обеспечивает рост производительности более чем на 120% в условиях малообучающих данных, превосходя базовые методы как в условиях малообучающих данных, так и в условиях полного набора данных. Кроме того, она улучшает настройку промптов, предоставляя эффективные рекомендации по мягкому инженерированию промптов.

github OpenAI Agents SDK · 1 д назад

Релиз openai-agents-python v0.17.7

Версия 0.17.7 библиотеки openai-agents-python включает новые функции, такие как настраиваемый максимальный размер WebSocket и потоковое передачу инструментов в формате Chat Completions. В ней также содержатся исправления различных проблем, включая буферирование в песочнице, обработку ошибок и распределение инструментов, а также обновления документации и улучшения сообщений об ошибках.

arxiv arXiv cs.CL · 1 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

arxiv arXiv cs.CL · 1 д назад

Байесовский контроль для агентов кодирования

Байесовский контроль улучшает решения о применении инструментов в агентах кодирования, моделируя неопределенность и динамически выбирая действия. Метод превосходит регулярные системы координации, особенно когда проверка является дорогостоящей и критики предоставляют информативную, но несовершенную обратную связь. Метод также обеспечивает более интерпретируемую оценку корректности, чем метрики на основе вероятности токенов или чистого успеха инструмента.

arxiv arXiv cs.CL · 1 д назад

NatureBench оценивает способность ИИ-агентов к кодированию к научным открытиям

NatureBench представляет бенчмарк из 90 задач, взятых из статей из журналов Nature, для оценки способности ИИ-агентов к достижению научных открытий. При протоколе, запрещающем использование веб-поиска, лучший модель превосходит предыдущие достижения только на 17,8% задач. Агенты в основном успешно решают задачи, переводя научные проблемы в задачи надзирания, а не через оригинальное научное изобретение.

github CrewAI · 1 д назад

Служба CrewAI 1.14.8a3 - Заметки по выпуску

Служба CrewAI 1.14.8a3 вводит единое декларативное загрузку потоков и улучшает пользовательский интерфейс при запуске команд для групп. Она объединяет команды запуска run и запуска потока crewai, добавляет поддержку декларативного CLI потока и позволяет использовать @router() как метод запуска потока с типизированными схемами выходных данных для инструментов.

media r/LocalLLaMA · 1 д назад

Mimo 2.5 работает быстро при больших контекстах на двух картах RTX Pro 6000

Mimo 2.5 обеспечивает быструю производительность при больших длинах контекста на двух картах RTX Pro 6000, используя механизм скользящего окна с локальным и глобальным окнами в соотношении 5:1, аналогичный Gemma 3. Задачи выполняются примерно за 4 минуты, что значительно быстрее, чем у MiniMax M3, который занимает около 40 минут, несмотря на то, что оба модели имеют схожее качество при ограничениях VRAM.

blog Simon Willison · 1 д назад

datasette 1.0a35 выпускает новые функции создания и изменения таблиц

Datasette 1.0a35 вводит новую интерфейс "Создать таблицу" с поддержкой определения столбцов, ограничений и внешних ключей через свой JSON-интерфейс. Также добавляется действие "Изменить таблицу", позволяющее изменять существующие таблицы, включая изменение столбцов, изменение типов и удаление столбцов или таблиц, с стабильным API шаблонов для пользовательских шаблонов до выпуска Datasette 2.0.

arxiv arXiv cs.AI · 1 д назад

Оценка LLM для обнаружения уязвимостей в веб-приложениях

Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.

media r/LocalLLaMA · 1 д назад

650+ моделей NER/дезидентификации на основе биомедицинских данных под лицензией Apache-2.0 работают в 30-40 раз быстрее на платформе Apple Silicon

Новый открытый проект предлагает 650+ моделей NER и дезидентификации на основе биомедицинских данных под лицензией Apache-2.0, работающих на устройстве через MLX. На MacBook Pro с M3 Max, приобретённый три года назад, модели клинического NER обеспечивают ускорение в 30-40 раз по сравнению с PyTorch на CPU, при одинаковых результатах в формате fp32 и идентичных результатах по сущностям, благодаря архитектурной эффективности на платформе Apple Silicon. Модели, включая 434 млн параметров для NER и дезидентификации PII, доступны в открытом доступе на Hugging Face и GitHub, с полной воспроизводимостью, обеспечиваемой кодом и методологией.

arxiv arXiv cs.AI · 1 д назад

CORTIS: текстовое адаптация моделей речи

CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.

arxiv arXiv cs.AI · 1 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нулевом режиме. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие недостатки включают утечку промпта, халлюцинации и слабое выполнение задач.

media r/LocalLLaMA · 1 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

lab Claude Code Releases · 1 д назад

Примечания по выпуску Claude v2.1.187

Claude v2.1.187 вводит блокировку учетных данных сандбокса, ограничения моделей, настроенные организацией, поддержку клика мыши в полноэкранном режиме, а также исправления сбоев команд, зависаний инструментов и стабильности интерфейса. Обновления также улучшают обработку структурированных выходов, отслеживание глубины агента и управление плагинами, с улучшением совместимости с VSCode и терминалом.

media r/LocalLLaMA · 1 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

blog Simon Willison · 2 д назад

OPFS + Pyodide test harness для редактирования SQLite в браузере

Разработан тестовый инструмент для исследования использования OPFS (Origin Private File System) с Pyodide с целью включения редактирования постоянных файлов SQLite в браузере. Инструмент предназначен для проверки способности Datasette Lite изменять локальные базы данных SQLite напрямую в браузере на разных браузерах.

media r/LocalLLaMA · 2 д назад

Новые Qwen-27B IQ4_KS и IQ4_KS_KT для ik_llama.cpp

Выпущены две новые GGUF-квантования для Qwen-27B для ik_llama.cpp, оптимизированные для 16 ГБ VRAM на GPU NVIDIA. Первое, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, улучшает логическое мышление за счёт снижения общего знания, при перплекситете 7.4131. Второе, Qwen3.6-27-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, применяет квантование Trellis (iq4_kt) селективно к тензорам с близкой гауссовой распределённостью, достигая перплекситете 7.4091, что показывает минимальное снижение производительности.

media r/LocalLLaMA · 2 д назад

Можно ли запустить GLM5.2 на 4 серверах AMD EPYC с 512 ГБ ОЗУ каждый?

Пользователь спрашивает, можно ли запустить модель GLM 5.2 размером 467 ГБ на четырёх серверах, каждый из которых имеет 51-2 ГБ ОЗУ и пропускную способность памяти 409,6 ГБ/с, используя только CPU для инференса с Unsloth. Они рассматривают возможность разделения модели между узлами для ускорения обработки токенов или использование версий с 8-битной точностью в двух кластерах для обработки более крупных моделей и улучшения производительности.

media Together AI Blog · 2 д назад

Frontier LLMs Struggle to Write Fast Multi-GPU Kernels

ParallelKernelBench оценивает LLMs по написанию быстрых много-GPU CUDA-ядер для 87 реальных задач. Наиболее сильная модель генерирует ядра, которые работают на треть скорости оптимальных реализаций, хотя несколько выводов превосходят любые существующие публичные коды.