arXiv cs.AI — korshunov.ai — новости ML

Источник · arXiv cs.AI

Новый бенчмарк COGNITIVE ATROSPHY BENCH оценивает, насколько LLM вызывают снижение когнитивных функций в диалогах по психическому здоровью. Создан на основе 1576 человеческих сессий консультаций и оценен клиническими экспертами, он выявляет паттерны, такие как директивные рекомендации и подтверждение, которые могут снижать автономность пользователя. Инструмент вводит метрики, такие как UIRI и ARI, для оценки риска снижения когнитивных функций и отслеживания поведенческих траекторий в ходе взаимодействий пользователя.

Введение в COGNITIVE ATROSPHY BENCH для взаимодействий LLM в области психического здоровья

Переиспользование метакnowledge в обучении с усилением

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

Голод учится: зависимость от каналов вознаграждения в ИИ

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

Продолжительность работы флеш-памяти как износа капитала в памяти робота

Разрыв в измерении в законодательстве Европейского союза по автоматизации

ReAge3D: Реалистичное 3D-преобразование возраста лиц с сохранением видов

Сигналы Оракла в коде тестов, написанном агентами

IUU+DB: Система на основе больших языковых моделей для отслеживания незаконной, неотчётной и нерегулируемой рыбалки и преступлений в цепочках поставок

Колмогоровская регрессия для устойчивых диффузионных политик

DRFLOW: Бенчмарк для предсказания персонализированных рабочих процессов

Внешний выпуск данных по заявкам Стэнфорда

FPRM: модель с адаптивным вычислением на основе фиксированной точки