AI agents — korshunov.ai — новости ML

AI agents Страница 1 / 20

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

OmniPlan: адаптивная система для своевременного и близкого оптимального планирования сети

OmniPlan представляет адаптивную систему, которая преобразует естественные языковые намерения пользователей в количественные предпочтения с использованием крупного языкового модели. Она динамически выбирает между экспертами на основе смешанной целочисленной оптимизации, онтологий и глубокого обучения с подкреплением, чтобы обеспечить как своевременность, так и близкую оптимальность при планировании сети. Оценки на распределённых рабочих нагрузках машинного обучения показывают сокращение задержки до 97,8% и снижение потребления ресурсов на 11,5%.

arxiv arXiv cs.LG · 8 д назад

Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей

Тройное вставление фигурных скобок в Handlebars не защищает от ввода ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет разделители в виде точки и хеш-символов Markdown без изменения, что позволяет атакующим перехватывать поведение модели. По умолчанию экранирование не защищает большинство схем разделителей ролей и не может заменить четкое разделение инструкций и данных.

arxiv arXiv cs.LG · 8 д назад

Встроенная рабочая среда ML для периферийных устройств на микроконтроллерах

В этой статье представлен системный подход к встраиваемому машинному обучению на устройствах класса микроконтроллера. Описывается ключевые инженерные решения, такие как выбор образцов данных, извлечение признаков, проверка несбалансированности классов, совместный дизайн модели и времени выполнения, а также развертывание в потоке, с использованием задач распознавания инерционных движений и распознавания ключевых слов в качестве примеров. Работа предоставляет практические правила проектирования для надежного выполнения инференса на устройстве, включая кураторство данных, квантование, пороговые значения, планирование и мониторинг в поле.

arxiv arXiv cs.LG · 8 д назад

Продолжительность работы как уменьшающийся капитал в памяти робота

Память на флеш-накопителе робота деградирует с каждой записью, образуя необновляемый актив. Модель цен, учитывающая износ, использует теневой ценовой коэффициент $η$ для руководства размещением памяти между ОЗУ, НВМ и облаком, при оптимальной маршрутизации зависит от того, растёт ли значение задачи с сохранением памяти. Знак ассоциации между значением и записью $χ$ варьируется в зависимости от развертывания: положительный при долгосрочном управлении, нулевой при краткосрочных задачах и отрицательный при телеманипуляции. Ограничение бюджета износа действует только на низкокачественные памяти QLC/eMMC, и хотя маршрутизация с учётом износа согласуется с задачевым значением, реальные улучшения производительности остаются не подтверждёнными в данных.

arxiv arXiv cs.LG · 8 д назад

Выпущена база данных с метками ATT&CK, объединяющая логи из различных источников в области кибербезопасности

Новая база данных объединяет системные, сетевые и браузерные логи из 870 сессий Windows, включая 70 атак и 800 случаев без нарушений. В ней присутствуют метки на уровне каждого события с идентификаторами техник MITRE ATT&CK для 12 тактик и 53 техник, используя реальные инструменты атак, такие как RAT и туннели C2. Настройка трех малых языковых моделей (SLM) с использованием LoRA повысила точность классификации блоков до 90–97% и достигла точности совпадения до 42% при идентификации техник, что демонстрирует сильную способность к логическому мышлению, несмотря на существующие трудности.

arxiv arXiv cs.LG · 8 д назад

Изучение политики красного агента на основе наблюдений для нейросимвольных киберагентов

Предложена техника обучения политики с использованием имитационного обучения для предсказания действий красного агента в частично наблюдаемых киберсредах. Метод обучает политики красного агента на основе наблюдений за сетью и действий защитника, позволяя нейросимвольным кибер-агентам точно предсказывать атаки и адаптировать защиту в различных симулированных сценариях.

arxiv arXiv cs.LG · 8 д назад

AdaVoMP: адаптивные объемные поля механических свойств

AdaVoMP предсказывает точные пространственно-изменяющиеся модули Юнга, коэффициенты Пуассона и плотность для 3D объектов на разных разрешениях. Используя разреженную адаптивную структуру вокселей и разреженный трансформерный кодировщик-декодер, AdaVoMP достигает разрешения в 16^3 раз выше, чем у предыдущих методов, с улучшенной точностью и меньшими вычислениями на этапе тестирования.

arxiv arXiv cs.LG · 8 д назад

ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую систему, использующую Issue GitHub для оценки воспроизводимости ML статей. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют по крайней мере один блокирующий элемент, отмеченный человеком, в 90% из 1149 ML статей, подчеркивая их способность обнаруживать видимые сбои и семантические проблемы, хотя точная локализация остается ограниченной.

arxiv arXiv cs.CL · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

Синтетический личный опыт ИИ в поддержке уходчика

Модели локальных языков могут генерировать ответы, похожие на реакции сверстников, имитирующие личные истории, создавая ложное впечатление о личном опыте. Психолингвистический анализ показывает, что люди используют больше личных и ориентированных на прошлое конструкций, чем ИИ, и ИИ часто фабрикует основу опыта без реального опыта. Этот парадокс синтетического личного опыта может обманывать уходчика, что требует механизмов для различения поддерживающей формулировки от фабрикованного опыта.

arxiv arXiv cs.CL · 8 д назад

PseudoBench: Оценка устойчивости агентных систем автоматического поиска к псевдонаучным утверждениям

PseudoBench оценивает способность агентных систем автоматического поиска обнаруживать псевдонаучные утверждения. При тестировании семи передовых агентов было выявлено почти нулевое количество отказов и только 27,4% устойчивости к псевдонаучным нарративам, при этом более сильные агенты часто используют сложную научную лексику для маскировки псевдонаучности.

arxiv arXiv cs.CL · 8 д назад

Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно не затрагивает разделители в виде точки и хеш-символа Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей ролей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

Оценка агентов показывает, что модели ИИ не могут избегать эксплуатации животных

TAC, первый агентный бенчмарк для скрытой защиты животных, проверяет способность агентов ИИ избегать эксплуатации животных в сценариях бронирования путешествий. Все семь передовых моделей получают оценку ниже 64%, лучшая из них — 53%, и даже незначительные улучшения запроса дают лишь незначительные результаты. Проверка не выявила признаков осознания оценки, что указывает на разрыв в производительности, обусловленный отсутствием истинного мышления по вопросам благополучия животных, а не распознаванием запросов.

arxiv arXiv cs.CL · 8 д назад

Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками

Исследование со стороны красной команды по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итерационным атакам, при этом Opus 4.8 был проникнут на 11,5% интенций, а Fable -5 на 6,1%. Несмотря на прочные защиты, обе модели генерировали 1620 и 702 подтвержденных вредоносных завершений по всем категориям вреда, автоматически и эффективно при автоматизированных атаках.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.CL · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости ML-статьй. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют хотя бы один семантически связанный барьер в 90% пар статей и репозиториев без выполнения кода.

arxiv arXiv cs.LG · 8 д назад

Оценка траектории на основе предпочтений для агентных систем

Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.