Все статьи — korshunov.ai

Все статьи Страница 1 / 129

Разметка обучающих данных для сопоставления сущностей с помощью больших языковых моделей

В данной статье исследуется использование больших языковых моделей в качестве моделей-учителей в рабочих процессах дистилляции знаний для автоматической разметки обучающих данных для более малых моделей-студентов в задачах сопоставления сущностей. Исследование оценивает различные стратегии выбора пар, модели учителей и студентов, а также методы постобработки на пяти стандартных бенчмарках.

media Hugging Face Forums · 11 ч назад

AgentSeal: Аудит доступности корпусов для SWE-bench Pro

Инструмент аудита AgentSeal v5 оценил публичную доступность артефактов в бенчмарке SWE-bench Pro для оценки потенциальных рисков загрязнения. Исследование показало, что хотя 12 примеров демонстрируют детерминированное перекрытие контента, а 76 репозиториев являются вероятными членами корпуса, большинство доказательств состояло из публичных репликаций с неизвестной датой, а не из доказанного загрязнения до отсечки.

lab Google — The Keyword (AI) · 11 ч назад

Раскрывая новую эру производительности Великобритании: создание нации пионеров в области ИИ

Google UK опубликовала свой последний отчет об экономическом воздействии, в котором детально описаны стратегии, направленные на то, чтобы помочь большему количеству людей раскрыть преимущества технологий на базе ИИ в стране.

arxiv arXiv cs.CL · 12 ч назад

LAMP: Легковесная агентная платформа на основе MCP и восстановления доказательств

Исследователи представляют LAMP, многоагентную платформу, которая синтезирует проверяемые в ядре доказательства Lean 4 для Комбинаторики на словах, предоставляя структурированные предметные знания через онтологию. Этот подход решает проблему отсутствия специализированных лемм в существующих доказывателях, обученных преимущественно на данных Mathlib.

arxiv arXiv cs.CL · 12 ч назад

Гетерогенные последствия для безопасности при безвредной многоязычной дообучении

Комплексное эмпирическое исследование показывает, что дообучение больших языковых моделей на безвредных многоязычных данных значительно увеличивает их склонность к выполнению небезопасных состязательных запросов — явление, называемое «многоязычным дрейфом безопасности». Исследование демонстрирует, что результаты по безопасности крайне чувствительны как к языку дообучения, так и к языку оценки, при этом показатели выполнения возрастают в четыре раза в некоторых сценариях.

arxiv arXiv cs.CL · 12 ч назад

wav2VOT: Автоматическая оценка времени начала голоса, длительности закрытия и реализации взрыва с помощью wav2vec2

В статье представлен wav2VOT — инструмент для автоматической оценки времени начала голоса, длительности закрытия и реализации взрыва, использующий модель wav2vec2. Он решает потребность в точных инструментах аннотации речи для фонетических исследований, демонстрируя, как большие речевые модели могут применяться к этим конкретным задачам.

arxiv arXiv cs.CL · 12 ч назад

Анализ совместимости лицензий корпусов для малоресурсных африканских языков

В данной статье проводится аудит происхождения лицензий более чем двадцати семейств корпусов, используемых в африканской NLP, и выявляется, что, хотя доминируют лицензии Creative Commons, их правила совместимости редко применяются. Авторы создают матрицу совместимости из шести уровней и применяют её к трём языкам-кейс-стади: Китуба/Мунукутуба, Зарма и Мурле.

arxiv arXiv cs.CL · 12 ч назад

Управление памятью для внимания к длинному контексту: предварительное исследование редактируемой локальной памяти запроса

В данном исследовании изучается внимание к длинному контексту с управлением памятью путем разделения быстрого рекуррентного или разреженного ядра на явно редактируемые слоты локальной памяти запроса и разреженное резервное решение во время запроса. Исследование направлено на устранение ограничений существующих методов линейного, рекуррентного и разреженного внимания в управлении тем, когда факты должны быть записаны, перезаписаны, защищены или отброшены.

arxiv arXiv cs.CL · 12 ч назад

PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

В данной статье представлен PASTA — фреймворк, предназначенный для интеграции детальной фактической информации из новостных статей в большие языковые модели (LLM) с целью решения проблемы обновления знаний. Подход сочетает аугментацию данных, генерацию вопросов и ответов, а также новый процесс самообучения Direct Preference Optimization (DPO), что позволяет осуществлять перезапись знаний и подавлять галлюцинации.

arxiv arXiv cs.CL · 12 ч назад

MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды

Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.

arxiv arXiv cs.CL · 12 ч назад

Латентные мосты для многопользовательского ответа на вопросы

Авторы представляют GRAB, конструктор-кодировщик-мостовой конвейер, предназначенный для ответов на вопросы по таблицам, который поднимает реляционные данные в гетерогенный граф и кодирует их с помощью передачи сообщений. Метод передает сигналы замороженной большой языковой модели через небольшой набор латентных токенов, обусловленных запросом, обеспечивая компактное структурное представление, сохраняя при этом общие способности к рассуждению LLM.

arxiv arXiv cs.CL · 13 ч назад

FinInvest-GTCN: Объяснимое графово-временное-каузальное моделирование для оптимизации инвестиционных решений с учётом рисков

Исследователи представляют FinInvest-GTCN, Графово-Временную-Каузальную Сеть (Graph-Temporal-Causal Network), предназначенную для оптимизации решений венчурных инвестиций путём решения таких проблем, как гетерогенные данные и нестационарные временные ряды. Модель переопределяет задачу от рекомендации контента к количественной оценке риска и доходности, используя реляционный графовый энкодер, многомасштабное временное слияние и каузальную голову принятия решений для генерации интерпретируемых прогнозов.

arxiv arXiv cs.CL · 13 ч назад

EVLA: Электро-осознанный мультимодальный ассистент для физически обоснованного рассуждения и управления при вождении

Авторы представляют Электро-Визуально-Языкового Ассистента (EVLA), фреймворк, который интегрирует мультимодальное понимание сцены с восприятием в реальном времени электромеханического состояния электрифицированной силовой установки для улучшения решений при вождении. Этот подход устраняет ограничение существующих визуальных языковых моделей, которые рассматривают динамику автомобиля как черный ящик, путем включения физических ограничений и целей оптимизации.

arxiv arXiv cs.CL · 13 ч назад

A3M: Адаптивное, состязательное и многокритериальное обучение для стратегического участия в повторяющихся аукционах

Фреймворк A3M решает задачи обучения ставкам в повторяющихся многопредметных аукционах за счет интеграции адаптивного глубокого обучения с подкреплением, состязательного рассуждения и проектирования многокритериальной функции вознаграждения. Он использует архитектуру actor-critic и моделирование оппонентов для оптимизации стратегии против нестационарных противников, балансируя между полезностью, доходом и справедливостью.

arxiv arXiv cs.CL · 13 ч назад

Кластеризация несупервизионных представлений как защита от атак отравления в системе классификации голосовых команд

В данной статье предлагается метод фильтрационной защиты от атак отравления с испорченными метками в системах классификации голосовых команд путем кластеризации несупервизионных представлений для выявления и удаления отравленных обучающих данных.

arxiv arXiv cs.CL · 13 ч назад

За пределами среднего: трехосная точность для согласования симуляторов опросов на основе LLM по малым пилотным данным

В данном исследовании изучается, могут ли большие языковые модели восстанавливать статистические характеристики более широкой популяции, используя лишь небольшую пилотную выборку ответов людей. Авторы разлагают это восстановление на три оси: структурная точность, маргинальная точность и индивидуальная точность.

arxiv arXiv cs.CL · 13 ч назад

Могут ли LLM нанимать справедливо? Расовая предвзятость при отборе резюме

Аудит четырнадцати основных больших языковых моделей выявляет значительный сдвиг в расовой предвзятости алгоритмов отбора резюме за последние годы. В то время как модели 2023 года воспроизводят разрыв в количестве приглашений на собеседование, благоприятствующий белым кандидатам, все модели, выпущенные в 2024 году и позже, показывают либо нулевой разрыв, либо значительное обращение этого эффекта в пользу чернокожих кандидатов.

arxiv arXiv cs.CL · 13 ч назад

AgriTune-R: Воспроизводимая платформа для тонкой настройки LLM в сельском хозяйстве

В статье представлена AgriTune-R — воспроизводимая и проверяемая платформа, предназначенная для адаптации моделей общего назначения к конкретным сельскохозяйственным задачам. Этот подход учитывает отраслевую специфику и критическую важность безопасности в сельском хозяйстве за счет интеграции управления данными, экспертной оценки и ограничений на основе доказательств для предотвращения ненадежных рекомендаций.

arxiv arXiv cs.CL · 13 ч назад

BERTomelo: Ваш лучший друг среди португальских энкодеров

В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.

arxiv arXiv cs.CL · 13 ч назад

Конверсационная адаптация домена IndicTrans2 с помощью реплея опыта и "супа" моделей

Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.