Reasoning models
arxiv arXiv cs.CL · 2 д назад

CFPO: Counterfactual Policy Optimization для многомодального мышления

CFPO вводит механизм перекрестной модальности с обратной логикой для улучшения причинной согласованности между визуальным восприятием и текстовым мышлением в моделях визуально-языковых систем. Оно обеспечивает рост на 3,17%–6,25% по сравнению с стандартными базовыми RL и на 1,32%–2,13% по сравнению с PAPO, без необходимости внешних вознаграждений или надзора.

arxiv arXiv cs.CL · 2 д назад

Расширение, основанное на оценке, для генерации экспертной оценки

Новая методика взаимодействия человека и ИИ, называемая расширением, основанное на оценке, позволяет генерировать ответственные экспертные оценки. Метод включает в себя предоставление экспертами оценочного утверждения, которое система расширяет в кандидаты на комментарии к оценке с помощью структурированного процесса генерации, проверки и уточнения. Исследование решает вопросы масштабируемой оценки и кураторства набора кандидатов, демонстрируя, что конформная предсказательная модель эффективно балансирует размер набора кандидатов и их охват.

arxiv arXiv cs.CL · 2 д назад

IMLogic Benchmark и RootMem Framework для неявного логического воспроизведения памяти

IMLogic — первый высококачественный бенчмарк для оценки неявного логического воспроизведения памяти в сценариях длительных диалогов. RootMem вводит структурированное, сохраняющее решения представление, называемое корневой памятью, для извлечения повторно используемых личных логических правил из истории пользователя, и использует роутер на основе LLM для активации релевантных памятей, превосходя существующие базовые методы по точности.

arxiv arXiv cs.CL · 2 д назад

Трансформаторы на основе энергии предсказывают сложность чтения

Трансформаторы на основе энергии демонстрируют устойчивую предсказательную силу в отношении времени чтения на нескольких корпусах и превосходят показатель неожиданности во всех случаях. Измерение энергии улавливает известные асимметрии объект-подлежащее в обработке относительных предложений и включает как энтропию внимания, так и неожиданность, что делает его универсальным показателем сложности чтения.

arxiv arXiv cs.CL · 2 д назад

Самостигма не является однородной: LLMs нуждаются в поддержке, учитывающей персонаж

Исследование 1174 пользователей Reddit выявило четыре различных персональных образа самостигмы. Модели, обученные распознавать эти персональные образы, превосходят универсальные модели при ответах на конкретные запросы, хотя клинические специалисты предпочитают универсальную эмпатию над эмпатией, соответствующей персональному образу. Исследование подчеркивает противоречие между персонализированной эмпатией и общей предпочтительностью пользователей в интервенциях ИИ, связанных со стигмой.

arxiv arXiv cs.CL · 2 д назад

ReasoningLens: иерархическая визуализация для больших моделей рассуждений

ReasoningLens представляет открытую платформу, которая визуализирует и проверяет следы длинных цепочек рассуждений в больших моделях рассуждений. Она структурирует рассуждения в виде интерактивных иерархий, использует агентского аудитора для обнаружения ошибок и выявляет специфические для модели слепые зоны через системные профили рассуждений.

arxiv arXiv cs.CL · 2 д назад

UnBias-Plus: Выявление, объяснение и переписывание предвзятости

UnBias-Plus — это открытый инструментарий, который позволяет проводить классификацию предвзятости на уровне сегментов, локализацию предвзятых фрагментов, переписывание нейтрального текста и рассуждение по принятию решений. Он предлагает несколько способов доступа, включая Python, командную строку, REST-интерфейс и веб-интерфейсы, при этом весь исходный код, модели, наборы данных и документация доступны в открытом доступе.

arxiv arXiv cs.CL · 2 д назад

TriggerBench: оценка перспективной памяти в больших языковых моделях

TriggerBench представляет бенчмарк для оценки перспективной памяти в больших языковых моделях, выявляя компромисс между точностью и выявлением, а также уязвимость внимания. Перспективная память оказывается значительно сложнее ретроспективной памяти и коррелирует с избыточной вычислительной способностью, что указывает на то, что PM отражает скрытые когнитивные ресурсы за пределами количества токенов.

arxiv arXiv cs.CL · 2 д назад

SelfCompact: Самодвижущийся сжатие контекста для языковых моделей

SelfCompact позволяет языковым моделям самостоятельно решать, когда и как сжимать накопленный контекст во время рассуждений. Сочетая инструмент сжатия, вызываемый моделью, с лёгкой шкалой, направляющей сжатие на основе структуры траектории, достигается эффективное адаптивное сжатие без тонкой настройки. Результаты показывают, что метод сопоставим или превосходит методы с фиксированным интервалом на задачах по математике и агентскому поиску, улучшая базовые значения на 18,1 пункта по математике и на 5–9 пунктов по поиску, при расходе на 30–70% меньше токенов.

arxiv arXiv cs.CL · 2 д назад

VeriEvol: масштабирование многомодальных математических рассуждений с верифицированной эволюцией

VeriEvol представляет верифицируемую систему построения данных для визуальных математических рассуждений, разделяя сложность запроса и надежность ответа. Он эволюционирует изображения-вопросы с использованием операторов, ориентированных на типы, и проверяет ответы с помощью многоканального противоречивого доказательства. На пяти бенчмарках масштабирование от 10K до 250K образцов повышает среднюю точность с 35.42 до 54.73, что составляет суммарный рост на +3.88 по сравнению с базовой версией, обусловленный эволюционированными запросами и верификацией HTV-Agent.

arxiv arXiv cs.CL · 2 д назад

LLMs не способны надежно отчетливо отражать влияние атак на предварительные заполнения

Никакие крупные языковые модели не способны надежно обнаруживать, когда их ответы были повлияны атаками на предварительные заполнения. Внутренние сигналы наиболее сильны в вопросах безопасности, но они зависят от выбора метода проверки и могут усиливаться при использовании LoRA-финтюнинга, что парадоксально повышает успешность атак.

arxiv arXiv cs.CL · 2 д назад

Случайный YaRN улучшает обобщение по длине для рассуждений с длинными контекстами

Случайный YaRN улучшает рассуждения с длинными контекстами, комбинируя позиционную экстраполяцию YaRN с случайным позиционным кодированием и куррикулом по длине. Он превосходит стандартную тонкую настройку на бенчмарках, таких как BABILong и MRCR, демонстрируя значительные преимущества на очень далеких от распределения длинах контекстов.

arxiv arXiv cs.CL · 2 д назад

Симметричные Q-сорты оценивают структурную согласованность с моральными ценностями в LLMs

Новый подход использует симметричные Q-сорты человека и LLM для оценки структурной согласованности больших языковых моделей с моральными ценностями. Сравнивая ранжирования 140 моральных утверждений по 12 LLM и образцу человека, исследование выявляет гетерогенность в рамках семей и локальные несоответствия, показывая, что общие оценки могут скрывать структурные дефекты. Результаты подчеркивают необходимость структурных оценок для дополнения традиционных моральных критериев на уровне элементов.

arxiv arXiv cs.CL · 2 д назад

На самом деле ли многозначные модели улучшаются? Изоляция истинного межязыкового переноса

Новый метрический показатель, Hardness Adjusted Transfer (HAT) Score, изолирует истинный межязыковый перенос, отделяя его от роста точности в исходном языке. Анализ 20 языковых моделей показывает, что межязыковый перенос в малых моделях не нарушён, прогресс с ростом размера модели медленнее, чем ожидалось, и зафиксированы ясные улучшения во времени.

arxiv arXiv cs.CL · 2 д назад

Могут ли LLMs управлять читаемостью на арабском?

Многоаспектная оценочная рамка оценивает генерацию арабского текста, управляемую CEFR, с помощью LLMs. Результаты показывают, что использование подсказок, управляемых CEFR и с лексическими ограничениями, обеспечивает высокую сопоставимость с лингвистическими профилями и предсказуемой читаемостью, в то время как неограниченные подсказки показывают слабое управление.

arxiv arXiv cs.CL · 2 д назад

Оценка больших языковых моделей для преобразования графем в звуки на японском языке

Исследование оценивает более 30 больших языковых моделей по преобразованию графем в звуки на японском языке с использованием 3000 ручно аннотированных предложений. Наиболее эффективные языковые модели достигают ошибки в канде-символах ниже 0,52%, превосходя лучшую традиционную систему (1,03%). Режим разбора, с применением правил послеобработки, показывает лучшие результаты по сравнению с прямым режимом для большинства моделей, и канды, предсказанные языковой моделью, улучшают произношение в речевых системах при вводе в TTS на основе канды.

arxiv arXiv cs.CL · 2 д назад

Ноу: Прогнозирующая модель мира для долгосрочной памяти агента

Ноу представляет архитектуру памяти, основанную на прогнозировании, а не на хранении, используя категориальные распределения вероятностей для моделирования знаний о мире. Оценка на LoCoMo с GPT-4o-mini показывает значения F1 равные 63,50 (одношаговый), 55,32 (многошаговый), -58,57 (временной) и 62,50 (открытая область), превосходя A-MEM в трёх категориях и BeliefMem во всех, хотя различия в оценке ограничивают полную сопоставимость.

arxiv arXiv cs.CL · 2 д назад

Могут ли модели рассуждений обнаруживать изменения в их цепях мышления?

Недавние модели рассуждений демонстрируют лишь слабую способность обнаруживать изменения в их цепях мышления. Их трудно выявить, как их цепь мышления была изменена, и они показывают схожие результаты при оценке изменений в собственных и в цепях мышления других моделей.

arxiv arXiv cs.CL · 2 д назад

TSCognition и TSAlign продвигают рассуждение по временным рядам с использованием LLMs

TSCognition представляет многомодальный бенчмарк с 41K образцов вопрос-ответ по пяти задачам когнитивного рассуждения. TSAlign превосходит существующие модели на TSCognition и TimerBed, одновременно снижая вычислительные затраты, используя представления на уровне патчей и выравнивание в пространстве векторных представлений LLM.

arxiv arXiv cs.CL · 2 д назад

Разрыв в детализации оценки уверенности в LLM

Исследование сравнивает семь методов оценки уверенности на 25 парам моделей-датасетов и показывает, что одноразовая оценка уверенности в устной форме хорошо классифицирует случаи, но предоставляет лишь несколько различных значений, что ограничивает пороги для операторов. Сбор данных с помощью нескольких запросов расширяет разрыв в детализации оценки, улучшает слабые модели, но ухудшает сильные, при этом возникают компромиссы, которые информируют о практическом внедрении.