Все статьи — korshunov.ai

Все статьи Страница 1 / 128

Графы клинического мышления: структурированная оценка диагностического рассуждения LLM выявляет компетентность без согласованности

В данном исследовании представлены графы клинического мышления для оценки паттернов диагностического рассуждения больших языковых моделей, показывающие, что хотя они демонстрируют компетентность, им не хватает согласованных схем рассуждения. Авторы извлекли структурированные графовые представления из 750 трассировок по пяти LLM и проверили наличие стабильных паттернов рассуждения в клинически схожих случаях.

arxiv arXiv cs.CL · 6 ч назад

SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике

Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.

arxiv arXiv cs.CL · 6 ч назад

MemDelta: Контролируемые базовые линии и скрытые смешивающие факторы в оценке памяти агентов

В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.

arxiv arXiv cs.CL · 6 ч назад

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

arxiv arXiv cs.CL · 6 ч назад

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.

arxiv arXiv cs.CL · 6 ч назад

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Авторы предлагают ParametricSkills — фреймворк, который преобразует навыки в свободной форме в параметры во время тестирования путем обучения гиперсети для генерации адаптеров LoRA. Этот подход позволяет использовать навыки без учета контекста, решая проблему соблюдения инструкций в сложных сценариях.

arxiv arXiv cs.CL · 6 ч назад

Маленькие модели, большие достижения: исследование компактных языковых моделей

В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9846 с оптимизацией умножения матриц Vulkan для Asahi Linux

Проект llama.cpp выпустил версию b9846, которая включает оптимизацию бэкенда Vulkan для Asahi Linux. Это обновление откатывает цикл размера блока в умножении матриц для улучшения совместимости и производительности на оборудовании Apple Silicon под управлением Linux.

arxiv arXiv cs.CL · 7 ч назад

LatentRevise: Обучение на основе нулевых попаданий в рассуждениях

В статье представлен LatentRevise — метод латентной ревизии первого порядка, предназначенный для восстановления обучающих сигналов в обучении с подкреплением по верифицируемым наградам (RLVR) для запросов, где правильные траектории редко выбираются. Оптимизируя входные эмбеддинги префикса рассуждений на основе неудачных выборок и эталонных ответов, метод генерирует полезные данные из ранее непродуктивных попыток.

arxiv arXiv cs.CL · 7 ч назад

Знайте перед тем, как извлекать: Калиброванное распределение бюджета на извлечение для генерации с дополнением извлечением

В этой статье представлен адаптивный фреймворк RAG, который распределяет бюджеты на извлечение, калибруя сигналы логарифмической вероятности последовательности и неопределенности префикс-логитов в вероятности правильности. Система решает, отвечать ли без внешних знаний (closed-book), извлекать компактный контекст (k=1), извлекать полный контекст (k=5) или воздержаться от ответа, основываясь на этих калиброванных вероятностях.

arxiv arXiv cs.CL · 7 ч назад

IHDec: Контрастивное декодирование с управлением расхождением для защиты иерархий инструкций в многошаговых диалогах

IHDec решает проблему потери Large Language Models иерархии инструкций в контексте многошаговых взаимодействий, используя расхождение Йенсена-Шеннона для обнаружения и исправления инверсий влияния ролей. Этот метод без дообучения динамически подавляет подчинённые роли, которые перехватывают управление у вышестоящих директив во время генерации токенов.

arxiv arXiv cs.CL · 7 ч назад

Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM

В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.

arxiv arXiv cs.CL · 7 ч назад

VISTA: Собственный дашборд для управления контекстом LLM

В статье представлена VISTA — слой без дообучения, предназначенный для решения ограничений окна контекста долгосрочных инструментальных агентов за счёт раскрытия их внутреннего состояния. Утверждается, что передовые модели не видят собственного использования контекста, и предлагается интерфейс, отображающий детали рабочей памяти вместо опирания на выученные политики сжатия.

arxiv arXiv cs.CL · 7 ч назад

Семантическая согласованность узел-окрестность: выравнивание текста и топологии для обнаружения аномалий в TAG

В данной статье рассматривается задача обнаружения аномалий на графах с текстовыми атрибутами (TAG) путем формализации её как проблемы семантической согласованности между узлом и его окрестностью, где аномалии возникают из-за несоответствия между текстовой семантикой и топологическими связями. Авторы предлагают N2NSC — фреймворк, использующий два дополнительных пути слияния для выравнивания топологии графа с текстовой семантикой, что позволяет большим языковым моделям (LLM) использовать как структурную, так и текстовую информацию окрестности.

arxiv arXiv cs.CL · 7 ч назад

SHOVIR: Бенчмарк для оценки обучения визуальным ярлыкам при генерации радиологических отчетов

Бенчмарк SHOVIR оценивает обучение визуальным ярлыкам при генерации радиологических отчетов путем расширения MIMIC-CXR и PadChest-GR с помощью меток CheXpert для каждой коробки (bounding box). Он использует эксперименты по окклюзии на уровне изображений и заболеваний, чтобы изолировать прямые и контекстуальные ярлыки, где модели полагаются на ложные корреляции, а не на реальные визуальные доказательства.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9844 добавляет поддержку NVFP4 и новые бинарные файлы

Проект llama.cpp выпустил версию b9844, которая вводит поддержку формата квантования ggml-webgpu NVFP4. Это обновление также предоставляет предварительно собранные бинарные файлы для macOS, iOS, Linux, Android, Windows и openEuler для различных аппаратных бэкендов.

arxiv arXiv cs.CL · 8 ч назад

Не совсем человеческие вкусы: стилизованная всеядность суррогатов опросов LLM

В данном исследовании оценивается способность больших языковых моделей аппроксимировать человеческие культурные вкусы путем генерации кремниевых суррогатов на основе Опроса общественного участия в искусстве. Используя модели от OpenAI, Anthropic и DeepSeek, авторы анализируют 277 470 синтетических респондентов, чтобы определить, могут ли LLM достоверно воспроизводить реальные данные опросов.

arxiv arXiv cs.CL · 8 ч назад

Эффективное извлечение с дополнением через графы совместной встречаемости токенов

Исследователи предлагают TIGRAG (Token-Induced GraphRAG) — фреймворк, использующий статистику совместной встречаемости токенов для построения масштабируемых графов знаний с целью эффективного извлечения с дополнением. Этот подход устраняет ограничения стандартного RAG в задачах многошагового рассуждения за счёт отказа от дорогостоящих конвейеров извлечения на основе LLM.

arxiv arXiv cs.CL · 8 ч назад

Динамика информации в языковом общении

Исследователи предлагают информационно-теоретическую рамку для количественной оценки направленного потока семантического содержания между собеседниками и декомпозиции многоисточниковых вкладов на избыточные, уникальные и синергетические компоненты.

arxiv arXiv cs.CL · 8 ч назад

Действительно ли подробное мышление по цепочке помогает? Внутри распределения доказательства того, что важнее содержание, а не длина

Это исследование исследует, улучшает ли подробное мышление по цепочке рассуждения больших языковых моделей за счёт увеличения вычислений или предоставления полезного семантического содержания. Авторы представляют доказательства из внутри распределённой выборки и контролируемых вмешательств для определения конкретных факторов, приводящих к улучшению производительности.