Reasoning models
arxiv arXiv cs.LG · 22 ч назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульный подход, который разделяет декларативные и процедурные знания в моделях визуально-языковых-действий. Структурирование потока информации позволяет обеспечить надежное копирование поведения и беспрецедентную передачу навыков без обучения на незнакомых и несхожих объектах.

media r/LocalLLaMA · 22 ч назад

llama-server аварийно останавливается при использовании промпта 'вставленного как файл' для извлечения данных из изображения

llama-server аварийно останавливается, когда пользователь вставляет длинный промпт в виде текстового файла вместе с изображением, рассматривая его как вложение файла. Сервер работает корректно при отправке промпта в меньших блоках, но несёт сбой при объединении полного промпта в один текстовый блок и отправке вместе с изображением.

arxiv arXiv cs.CL · 23 ч назад

Исследование психических моделей пользователей в переводе речи

Новый фреймворк, использующий межязычные вопросы о переводе, раскрывает психические модели пользователей систем перевода речи. Психические модели пользователей становятся сильнее при практике, особенно при наличии знаний на языке источника, и они опираются на поверхностные сигналы ошибок. Предоставление транскрипций речи улучшает развитие моделей, что демонстрирует потенциал межязычных вопросов о переводе в исследованиях взаимодействия человека и ИИ.

arxiv arXiv cs.CL · 23 ч назад

Разделение задачи для эффективной аннотации

Мы предлагаем разделять структурированные задачи аннотации на подзадачи, чтобы снизить общую инференциальную нагрузку. Определяя значимые центральные сущности — центры в пространстве допустимых аннотаций — мы ограничиваем сложность вывода и повышаем эффективность затрат. Мы предоставляем руководства по разделению задач и процедуру распределения подзадач между людьми и модельными аннотаторами для достижения оптимального качества при фиксированных бюджетах.

arxiv arXiv cs.CL · 23 ч назад

Постериорная коррекция: быстрая генерация языка через любые порядки карт потоков

FMLM+ вводит постериорную коррекцию, стратегию, позволяющую адаптивную самокоррекцию во время инференса. Сочетая транспорт карт потока с маскирующими схемами шума, достигается высокая точность генерации языка при 32 раза меньшем количестве оценок без шума, что превосходит как MDM, так и FMLM по соотношению скорости и качества.

arxiv arXiv cs.CL · 1 д назад

Соответствие задачи и рамочной структуры для моделей кодировщиков-декодеров

Этот исследовательский проект представляет рамку Match Task to Objective (MTO), которая позволяет сопоставить цели предобучения и настройки с конкретными задачами. Рамка обеспечивает автоматическую, неподконтрольную адаптацию данных и обеспечивает рост производительности более чем на 120% в условиях малообучающих данных, превосходя базовые методы как в условиях малообучающих данных, так и в условиях полного набора данных. Кроме того, она улучшает настройку промптов, предоставляя эффективные рекомендации по мягкому инженерированию промптов.

arxiv arXiv cs.CL · 1 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 1 д назад

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

Эра LLM: Бенчмарк для логического мышления и дипломатии в LLM

Age of LLM вводит турнирный бенчмарк 1 против 1, где два LLM соревнуются на сетке размером 13x7 под условиями тумана, полной дипломатии и строгих правил надежности в формате JSON. Результаты показывают, что ядерный рывок доминирует, дипломатия является распространённой, но редко приводит к успеху, а незаконные действия выявляют ошибки в отслеживании убеждений, при этом между надежностью и победой существует слабая связь. Корпус является малым и несбалансированным, и результаты дают предварительное представление о логическом мышлении LLM в условиях противодействующей неопределённости.

arxiv arXiv cs.CL · 1 д назад

ExtractConf: Многосигнальный двигатель уверенности для извлечения документов из LLM

ExtractConf вводит двигатель уверенности, который использует двойное чтение LLM — направленное на поля и направленное на документ — для обнаружения ненадежных извлечений. Он объединяет несогласие между вызовами, неопределенность LLM и сигналы документа в классификатор, достигая значения ROC AUC 0,928 на счетах и снижая риски селективного предсказания на 70%.

arxiv arXiv cs.CL · 1 д назад

Байесовский контроль для агентов кодирования

Байесовский контроль улучшает решения о применении инструментов в агентах кодирования, моделируя неопределенность и динамически выбирая действия. Метод превосходит регулярные системы координации, особенно когда проверка является дорогостоящей и критики предоставляют информативную, но несовершенную обратную связь. Метод также обеспечивает более интерпретируемую оценку корректности, чем метрики на основе вероятности токенов или чистого успеха инструмента.

arxiv arXiv cs.CL · 1 д назад

RaDaR: ИИ-модель улучшает диагностику редких заболеваний

RaDaR, компактная модель логического мышления, превзошла другие открытые модели по диагностике редких заболеваний. В рандомизированном исследовании RaDaR повысил точность диагностики врачей на 21,44 процентных пункта по сравнению с поиском в интернете.

arxiv arXiv cs.CL · 1 д назад

Межязыковое исследование параметрических знаний

Межязыковые стратегии промптов улучшают извлечение фактических знаний в 17 различных языках. Подход превосходит масштабирование на родном языке по эффективности вычислений и усиливает межязыковую согласованность за счёт превышения результатов по точности.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.CL · 1 д назад

Исследования межязычных пословиц выявили сохранение культурного значения в больших языковых моделях

Исследование оценивает, как большие языковые модели сохраняют культурное значение при генерации рассказов на основе эквивалентных пословиц в 15 языках. Результаты показывают семантическую согласованность в моральных уроках, с систематическими сдвигами в агентности и структуре рассказа, и сильной сходимостью между семействами моделей. Исследование подчеркивает, что текущие оценки могут переоценивать сохранение культурного значения, фокусируясь только на семантической схожести.

arxiv arXiv cs.CL · 1 д назад

Анонимизация RAG за счёт семантической переписки многоагентной системы

Многоагентная система очищает извлечённый контент, удаляя чувствительные идентификаторы с помощью семантической переписки, что снижает утечку приватности в целевых атаках. Система сохраняет высокую контекстуальную точность с показателем BLEU-1 в 0,122, превосходя показатель SAGE в 0,117, и работает как асинхронный предварительный этап без добавления задержки к онлайн-инференсу.

arxiv arXiv cs.LG · 1 д назад

Память-эффективная фильтрация графа для масштабируемого коллаборативного фильтра

Mem-GF вводит метод память-эффективной фильтрации графа, который аппроксимирует полиномиальные граф-фильтры с помощью подпространств Крылова, что позволяет избежать хранения полного графа схожести элементов. Метод достигает снижения использования памяти до 5,74 раза и ускорения выполнения до 4,38 раз, при этом сохраняя высокую точность рекомендаций по сравнению с современными методами, и эффективно масштабируется на датасеты с десятками миллионов взаимодействий.