AI agents — korshunov.ai — новости ML

AI agents Страница 1 / 21

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа с помощью комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся распределениям данных.

arxiv arXiv cs.AI · 8 д назад

Теория поведения потребителей на основе больших языковых моделей: новая область исследований

В этой статье представлено понятие теории поведения потребителей на основе больших языковых моделей, новой области, анализирующей, как большие языковые модели принимают решения о потреблении от имени пользователей. Теория объединяет исследования по принятию решений на основе больших языковых моделей, имитации поведения человека и извлечению предпочтений в рамках экономических принципов, выявляя ключевые пробелы в допущениях, таких как рациональность и гетерогенность в агентных рынках.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

Теория поведения потребителей на основе больших языковых моделей: новая область исследований

LegalHalluLens: аудит галлюцинаций в правовом ИИ

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

Синтетический личный опыт ИИ в поддержке уходчика

PseudoBench: Оценка устойчивости агентных систем автономного поиска к псевдонаучным утверждениям

Кадровая ИИ-архитектура снижает ошибки диагностики в здравоохранении

EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Переиспользование метакnowledge в обучении с усилением

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

Продолжительность работы флеш-памяти как износа капитала в памяти робота

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

ReAge3D: Реалистичное 3D-преобразование возраста лиц с сохранением видов

Сигналы Оракла в коде тестов, написанном агентами

IUU+DB: Система на основе больших языковых моделей для отслеживания незаконной, неотчётной и нерегулируемой рыбалки и преступлений в цепочках поставок

DRFLOW: Бенчмарк для предсказания персонализированных рабочих процессов

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками