Все статьи — korshunov.ai

Все статьи Страница 1 / 126

PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

В данной статье представлен PASTA — фреймворк, предназначенный для интеграции детальной фактической информации из новостных статей в большие языковые модели (LLM) с целью решения проблемы обновления знаний. Подход сочетает аугментацию данных, генерацию вопросов и ответов, а также новый процесс самообучения Direct Preference Optimization (DPO), что позволяет осуществлять перезапись знаний и подавлять галлюцинации.

arxiv arXiv cs.CL · 5 ч назад

MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды

Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.

arxiv arXiv cs.CL · 5 ч назад

Латентные мосты для многопользовательского ответа на вопросы

Авторы представляют GRAB, конструктор-кодировщик-мостовой конвейер, предназначенный для ответов на вопросы по таблицам, который поднимает реляционные данные в гетерогенный граф и кодирует их с помощью передачи сообщений. Метод передает сигналы замороженной большой языковой модели через небольшой набор латентных токенов, обусловленных запросом, обеспечивая компактное структурное представление, сохраняя при этом общие способности к рассуждению LLM.

arxiv arXiv cs.CL · 6 ч назад

FinInvest-GTCN: Объяснимое графово-временное-каузальное моделирование для оптимизации инвестиционных решений с учётом рисков

Исследователи представляют FinInvest-GTCN, Графово-Временную-Каузальную Сеть (Graph-Temporal-Causal Network), предназначенную для оптимизации решений венчурных инвестиций путём решения таких проблем, как гетерогенные данные и нестационарные временные ряды. Модель переопределяет задачу от рекомендации контента к количественной оценке риска и доходности, используя реляционный графовый энкодер, многомасштабное временное слияние и каузальную голову принятия решений для генерации интерпретируемых прогнозов.

arxiv arXiv cs.CL · 6 ч назад

EVLA: Электро-осознанный мультимодальный ассистент для физически обоснованного рассуждения и управления при вождении

Авторы представляют Электро-Визуально-Языкового Ассистента (EVLA), фреймворк, который интегрирует мультимодальное понимание сцены с восприятием в реальном времени электромеханического состояния электрифицированной силовой установки для улучшения решений при вождении. Этот подход устраняет ограничение существующих визуальных языковых моделей, которые рассматривают динамику автомобиля как черный ящик, путем включения физических ограничений и целей оптимизации.

arxiv arXiv cs.CL · 6 ч назад

A3M: Адаптивное, состязательное и многокритериальное обучение для стратегического участия в повторяющихся аукционах

Фреймворк A3M решает задачи обучения ставкам в повторяющихся многопредметных аукционах за счет интеграции адаптивного глубокого обучения с подкреплением, состязательного рассуждения и проектирования многокритериальной функции вознаграждения. Он использует архитектуру actor-critic и моделирование оппонентов для оптимизации стратегии против нестационарных противников, балансируя между полезностью, доходом и справедливостью.

arxiv arXiv cs.CL · 6 ч назад

Кластеризация несупервизионных представлений как защита от атак отравления в системе классификации голосовых команд

В данной статье предлагается метод фильтрационной защиты от атак отравления с испорченными метками в системах классификации голосовых команд путем кластеризации несупервизионных представлений для выявления и удаления отравленных обучающих данных.

arxiv arXiv cs.CL · 6 ч назад

За пределами среднего: трехосная точность для согласования симуляторов опросов на основе LLM по малым пилотным данным

В данном исследовании изучается, могут ли большие языковые модели восстанавливать статистические характеристики более широкой популяции, используя лишь небольшую пилотную выборку ответов людей. Авторы разлагают это восстановление на три оси: структурная точность, маргинальная точность и индивидуальная точность.

arxiv arXiv cs.CL · 6 ч назад

Могут ли LLM нанимать справедливо? Расовая предвзятость при отборе резюме

Аудит четырнадцати основных больших языковых моделей выявляет значительный сдвиг в расовой предвзятости алгоритмов отбора резюме за последние годы. В то время как модели 2023 года воспроизводят разрыв в количестве приглашений на собеседование, благоприятствующий белым кандидатам, все модели, выпущенные в 2024 году и позже, показывают либо нулевой разрыв, либо значительное обращение этого эффекта в пользу чернокожих кандидатов.

arxiv arXiv cs.CL · 6 ч назад

AgriTune-R: Воспроизводимая платформа для тонкой настройки LLM в сельском хозяйстве

В статье представлена AgriTune-R — воспроизводимая и проверяемая платформа, предназначенная для адаптации моделей общего назначения к конкретным сельскохозяйственным задачам. Этот подход учитывает отраслевую специфику и критическую важность безопасности в сельском хозяйстве за счет интеграции управления данными, экспертной оценки и ограничений на основе доказательств для предотвращения ненадежных рекомендаций.

arxiv arXiv cs.CL · 6 ч назад

BERTomelo: Ваш лучший друг среди португальских энкодеров

В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.

arxiv arXiv cs.CL · 6 ч назад

Конверсационная адаптация домена IndicTrans2 с помощью реплея опыта и "супа" моделей

Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.

arxiv arXiv cs.CL · 6 ч назад

Сила клинических доказательств восстанавливается по представлениям LLM, а не по заявленным оценкам

Исследование 22 моделей с открытым весом показывает, что силу клинических доказательств можно восстановить по активациям модели и тексту, хотя явно заявленные моделями оценки не лучше случайного угадывания. Исследователи проанализировали 45 134 клинических утверждения, гармонизированных в четыре уровня доказательности, чтобы проверить, фиксируют ли модели силу доказательств отдельно от фактической истинности.

arxiv arXiv cs.CL · 7 ч назад

Как использовать синтетическую речь для систем ASR на основе LLM?

Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.

arxiv arXiv cs.CL · 7 ч назад

Маскированное декодирование диффузии как поток предсказания x

В данной статье представлен непрерывный фреймворк декодирования для языковых моделей с маскированной диффузией (MDLMs), который переосмысливает предсказание маски как предсказание чистого состояния, чтобы создать непрерывный поток в пространстве входных эмбеддингов. Позволяя токенам накапливать частичный прогресс и оставаться пересматриваемыми, метод решает проблему преждевременных обязательств, присущих стандартным режимам бинарного раскрытия.

arxiv arXiv cs.CL · 7 ч назад

ThinkProbe: Структурное профилирование рассуждений LLM с помощью нефункциональных графов мыслей

ThinkProbe — это фреймворк для структурного анализа следов рассуждений больших языковых моделей, преобразующий их в направленные Графы Мыслей с восемью типами узлов и шестью типами ребер. Он выводит пятимерный когнитивный профиль из 19 метрик через полностью нефункциональный конвейер, сочетающий сегментацию на основе правил и дискриминационное семантическое связывание.

arxiv arXiv cs.CL · 7 ч назад

Сравнительное исследование аффективных признаков в текстовых эмбеддингах в рамках психологических теорий эмоций

В данном исследовании изучается степень, в которой современные текстовые энкодеры отражают психологические теории аффекта путем оценки двенадцати недавно выпущенных моделей в рамках трех устоявшихся фреймворков эмоций. Исследование сравнивает производительность на уровне слов и предложений с использованием как задач регрессии, так и классификации.

arxiv arXiv cs.CL · 7 ч назад

Дешевые концептуально-ориентированные локализованные объяснения: насколько далеко мы можем зайти с подходами без обучения?

В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.

arxiv arXiv cs.CL · 7 ч назад

Эволюционное тонкое настраивание: обучение открытию решений в 371 задаче оптимизации

Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.

arxiv arXiv cs.CL · 7 ч назад

AB-RAG: Адаптивное извлечение с ограниченным бюджетом для надежного ответа на вопросы

AB-RAG — это фреймворк, не требующий дообучения и независимый от архитектуры базовой модели, который динамически регулирует усилия по извлечению на основе оценки уверенности, полученной из определенности модели, согласия между ответом и доказательством, а также дисперсии оценок извлечения. Этот подход позволяет системам решать, следует ли прекратить поиск или извлечь больше доказательств в рамках фиксированного бюджета, без дообучения базовой языковой модели.