Все статьи — korshunov.ai

Все статьи Страница 1 / 125

Управление памятью для внимания к длинному контексту: предварительное исследование редактируемой локальной памяти запроса

В данном исследовании изучается внимание к длинному контексту с управлением памятью путем разделения быстрого рекуррентного или разреженного ядра на явно редактируемые слоты локальной памяти запроса и разреженное резервное решение во время запроса. Исследование направлено на устранение ограничений существующих методов линейного, рекуррентного и разреженного внимания в управлении тем, когда факты должны быть записаны, перезаписаны, защищены или отброшены.

arxiv arXiv cs.CL · 4 ч назад

PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

В данной статье представлен PASTA — фреймворк, предназначенный для интеграции детальной фактической информации из новостных статей в большие языковые модели (LLM) с целью решения проблемы обновления знаний. Подход сочетает аугментацию данных, генерацию вопросов и ответов, а также новый процесс самообучения Direct Preference Optimization (DPO), что позволяет осуществлять перезапись знаний и подавлять галлюцинации.

arxiv arXiv cs.CL · 4 ч назад

MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды

Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.

arxiv arXiv cs.CL · 4 ч назад

Латентные мосты для многопользовательского ответа на вопросы

Авторы представляют GRAB, конструктор-кодировщик-мостовой конвейер, предназначенный для ответов на вопросы по таблицам, который поднимает реляционные данные в гетерогенный граф и кодирует их с помощью передачи сообщений. Метод передает сигналы замороженной большой языковой модели через небольшой набор латентных токенов, обусловленных запросом, обеспечивая компактное структурное представление, сохраняя при этом общие способности к рассуждению LLM.

Управление памятью для внимания к длинному контексту: предварительное исследование редактируемой локальной памяти запроса

PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды

Латентные мосты для многопользовательского ответа на вопросы

FinInvest-GTCN: Объяснимое графово-временное-каузальное моделирование для оптимизации инвестиционных решений с учётом рисков

EVLA: Электро-осознанный мультимодальный ассистент для физически обоснованного рассуждения и управления при вождении

A3M: Адаптивное, состязательное и многокритериальное обучение для стратегического участия в повторяющихся аукционах

Кластеризация несупервизионных представлений как защита от атак отравления в системе классификации голосовых команд

За пределами среднего: трехосная точность для согласования симуляторов опросов на основе LLM по малым пилотным данным

Могут ли LLM нанимать справедливо? Расовая предвзятость при отборе резюме

AgriTune-R: Воспроизводимая платформа для тонкой настройки LLM в сельском хозяйстве

BERTomelo: Ваш лучший друг среди португальских энкодеров

Конверсационная адаптация домена IndicTrans2 с помощью реплея опыта и "супа" моделей

Сила клинических доказательств восстанавливается по представлениям LLM, а не по заявленным оценкам

Как использовать синтетическую речь для систем ASR на основе LLM?

Маскированное декодирование диффузии как поток предсказания x

ThinkProbe: Структурное профилирование рассуждений LLM с помощью нефункциональных графов мыслей

Сравнительное исследование аффективных признаков в текстовых эмбеддингах в рамках психологических теорий эмоций

Дешевые концептуально-ориентированные локализованные объяснения: насколько далеко мы можем зайти с подходами без обучения?

Эволюционное тонкое настраивание: обучение открытию решений в 371 задаче оптимизации