Все статьи — korshunov.ai

Все статьи Страница 1 / 130

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

arxiv arXiv cs.CL · 1 д назад

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.

arxiv arXiv cs.CL · 1 д назад

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Авторы предлагают ParametricSkills — фреймворк, который преобразует навыки в свободной форме в параметры во время тестирования путем обучения гиперсети для генерации адаптеров LoRA. Этот подход позволяет использовать навыки без учета контекста, решая проблему соблюдения инструкций в сложных сценариях.

arxiv arXiv cs.CL · 1 д назад

Маленькие модели, большие достижения: исследование компактных языковых моделей

В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Маленькие модели, большие достижения: исследование компактных языковых моделей

LatentRevise: Обучение на основе нулевых попаданий в рассуждениях

Знайте перед тем, как извлекать: Калиброванное распределение бюджета на извлечение для генерации с дополнением извлечением

IHDec: Контрастивное декодирование с управлением расхождением для защиты иерархий инструкций в многошаговых диалогах

Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM

VISTA: Собственный дашборд для управления контекстом LLM

Семантическая согласованность узел-окрестность: выравнивание текста и топологии для обнаружения аномалий в TAG

SHOVIR: Бенчмарк для оценки обучения визуальным ярлыкам при генерации радиологических отчетов

Не совсем человеческие вкусы: стилизованная всеядность суррогатов опросов LLM

Эффективное извлечение с дополнением через графы совместной встречаемости токенов

Динамика информации в языковом общении

Действительно ли подробное мышление по цепочке помогает? Внутри распределения доказательства того, что важнее содержание, а не длина

Языковые модели ДНК: Оценка преимуществ предобучения для задач дообучения

Оценка направлений грамматического рода в контекстных эмбеддингах при контролируемых и естественных контекстах

CORTEX: высококачественная кросс-доменная организация веб-корпусов через онтологический граф корпусов

DAIN: Динамическая сеть взаимодействий на основе агентов для эффективного и совместного мультимодального рассуждения

Предупреждён — значит вооружён: когда не последовательные эмбеддинги становятся детектором аномалий