Все статьи
arxiv arXiv cs.AI · 12 ч назад

RoboMME-Interference: Оценка памяти робота при наличии помех

RoboMME-Interference представляет кросс-сессионный бенчмарк для оценки памяти робота при наличии помех. В него добавляются несвязанные сессии к предыдущим демонстрациям, что показывает, что варианты перцептивной памяти значительно деградируют при увеличении раздражителей, подчеркивая недостаточную устойчивость существующих систем к помехам и необходимость долгосрочной памяти.

github llama.cpp · 12 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

lab Google DeepMind Blog · 12 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 12 ч назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

media r/LocalLLaMA · 12 ч назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

media r/LocalLLaMA · 12 ч назад

Sipp: открытая библиотека для инференса в браузере, построенная на llama.cpp

Sipp — это открытая библиотека, которая позволяет выполнять инференс локальных языковых моделей в браузере с использованием llama.cpp. Она позволяет пользователям запускать инференс локальных языковых моделей прямо в веб-браузерах без зависимости от облачных сервисов. Проект доступен на GitHub по адресу https://github.com/noumena-labs/Sipp.

arxiv arXiv cs.AI · 12 ч назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 12 ч назад

SAFER: надежная адаптация на этапе тестирования при противодействующих потоках

SAFER — это рамка без обучения, которая повышает устойчивость адаптации на этапе тестирования за счёт использования аугментации, ориентированной на надёжность. Она генерирует стохастические аугментации, объединяет предсказания с помощью агрегации, взвешенной корреляцией, с обнаружением выбросов, и включает адаптивное смешивание для сохранения чистой производительности при противодействующих атаках. Оценки на PACS, VLCS и OfficeHome показывают улучшенную устойчивость без потери чистой точности.

arxiv arXiv cs.AI · 12 ч назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.

arxiv arXiv cs.AI · 12 ч назад

Первые токены в трансформерах: идентичность языка и устойчивость

LIHA показывает небольшое количество голов первых токенов в GPT-2, которые постоянно обращаются к первому токену промпта, вызывая смену языка. Обучение по инструкциям перестраивает эти схемы, концентрируя идентичность языка на ранних слоях, как это наблюдается в Qwen2.5-1.5B-Instruct и подтверждается в обработке китайского и русского языков на слое 0.

arxiv arXiv cs.AI · 12 ч назад

Оценка физической согласованности в генерации видео без ссылок

Новый метод оценивает физическую согласованность в сгенерированных видео без необходимости человеческих оценок или истинных ссылок. Он использует DROID-SLAM и SEA-RAFT для обнаружения несоответствий, повышая показатели успешного выполнения задачи более чем на 8% и позволяя проводить спектро-временное локализацию физических артефактов.

arxiv arXiv cs.AI · 12 ч назад

Очистка меток с использованием больших языковых моделей в наборе данных по рентгеновским снимкам грудной клетки

Большая языковая модель (LLM) помогла выявить несоответствия между метками и отчетами в наборе данных CT-RATE по рентгеновским снимкам грудной клетки. GPT-5.4 достигла согласия на уровне 96,4% с существующими метками, при этом рентгенологическая проверка подтвердила метки, полученные с помощью LLM, в 74,2% общих и 91,9% случаев лимфоаденопатии. Метки, полученные с помощью большинства из нескольких LLM, показали лучшие результаты по F1 и кэппу, и очищенный набор данных будет опубликован.

arxiv arXiv cs.AI · 13 ч назад

ARIA: Фреймворк с учетом причинности для восстановления логического мышления в ЛЛМ

ARIA решает проблему контекстуального туннелирования в ЛЛМ за счет условного использования знаний на уровне механической полноты. Оно использует трехуровневую цепочку для причинного мышления, передачи с физической интерпретацией и параметрического резерва, и улучшает открытие материалов за счет проверяемого, физически обоснованного мышления.

arxiv arXiv cs.AI · 13 ч назад

HyperAdapter: структурированная адаптация гиперребер для мелкого настройки визуальных трансформеров

HyperAdapter вводит адаптер на основе гиперграфа, который обеспечивает структурированную, групповую адаптацию в визуальных трансформерах, работая в пространстве гиперребер, а не в пространстве токенов. Он использует проработанные присваивания для построения мягкого гиперграфа, агрегирует признаки токенов в представления гиперребер, применяет лёгкую адаптацию и возвращает обновления через структуру гиперграфа, обеспечивая явную структурную индуктивную предпосылку при сохранении эффективности. Эксперименты показывают стабильное улучшение по сравнению с базовыми методами PEFT, особенно на задачах, требующих структурированного мышления.

arxiv arXiv cs.AI · 13 ч назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.

arxiv arXiv cs.AI · 13 ч назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 13 ч назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов на 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нулевого обучения с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на незначительную, но статистически значимую величину.

arxiv arXiv cs.AI · 13 ч назад

Gold Points Sniper: Саморегулируемое визуальное мышление для понимания детальных человеческих действий

Gold Points Sniper (GPS) позволяет лёгким моделям визуально-языкового взаимодействия проводить самоорганизованное многомодальное мышление для понимания детальных человеческих действий. Интегрируя экстрактор золотых точек, селективный сократовский вопросник и оценщик семантической логики, GPS достигает производительности, сравнимой с GPT-4o, при этом обеспечивая превосходную фактическую точность на данных инструкционного обучения, основанных на базе CAP.

arxiv arXiv cs.AI · 13 ч назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

arxiv arXiv cs.AI · 13 ч назад

SciVerseGym: среда для обучения с подкреплением для открытия кристаллов

SciVerseGym представляет среду, совместимую с Gymnasium, которая формирует открытие кристаллов как процесс марковского решения. Оно позволяет агентам выполнять химически значимые изменения на атомных структурах и получать обратную связь от настраиваемых оценщиков, поддерживая разнообразные типы действий и наблюдений с использованием машинных потенциалов или калькуляторов, совместимых с ASE.