Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

Функциональная ортогональность обеспечивает идентифицируемость в непеременной дисентанглменте

В статье доказывается, что локально ортогональные направления в генеративных моделях гарантируют идентифицируемость скрытых факторов без необходимости в статистической независимости или касательных предположениях. Эксперименты с ортогонально регулируемыми нормализующими потоками подтверждают надежное восстановление истинных скрытых факторов, что оспаривает ранее сформулированные утверждения о невозможности непеременной дисентанглменты.

arxiv arXiv cs.LG · 1 д назад

Атомарные языковые модели понимают и генерируют материалы

Атомарные языковые модели (ALM) объединяют язык и атомарные структуры, позволяя генерировать и оптимизировать кристаллы с использованием естественного языка. ALM используют непрерывный мост для отображения языковых векторов в пространство диффузии, направляющее атомарные структуры, и применяют Text-to-Crystal Feynman-Kac для точности стехиометрии. Бенчмарк ALM Bench оценивает генерацию и оптимизацию материалов при условии текста, код и веса будут скоро опубликованы.

arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

Общие кодеры для модульного реляционного глубокого обучения

В статье предложена модульная реляционная модель глубокого обучения, которая разделяет кодирование строк на передачу сообщений в графе. Вводится трансформер-базированный универсальный кодер строк, который использует метаданные схемы для генерации инвариантных векторов строк, что позволяет улучшить обобщение на разных базах данных и ускорить сходимость на бенчмарках RelBench.

arxiv arXiv cs.LG · 1 д назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.

arxiv arXiv cs.LG · 1 д назад

Постобучения улучшения речи с перцептуальными вознаграждениями

Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.

arxiv arXiv cs.LG · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульный подход, который разделяет декларативные и процедурные знания в моделях визуально-языковых-действий. Структурирование потока информации позволяет обеспечить надежное копирование поведения и беспрецедентную передачу навыков без обучения на незнакомых и несхожих объектах.

media r/LocalLLaMA · 1 д назад

llama-server аварийно останавливается при использовании промпта 'вставленного как файл' для извлечения данных из изображения

llama-server аварийно останавливается, когда пользователь вставляет длинный промпт в виде текстового файла вместе с изображением, рассматривая его как вложение файла. Сервер работает корректно при отправке промпта в меньших блоках, но несёт сбой при объединении полного промпта в один текстовый блок и отправке вместе с изображением.

arxiv arXiv cs.CL · 1 д назад

Исследование психических моделей пользователей в переводе речи

Новый фреймворк, использующий межязычные вопросы о переводе, раскрывает психические модели пользователей систем перевода речи. Психические модели пользователей становятся сильнее при практике, особенно при наличии знаний на языке источника, и они опираются на поверхностные сигналы ошибок. Предоставление транскрипций речи улучшает развитие моделей, что демонстрирует потенциал межязычных вопросов о переводе в исследованиях взаимодействия человека и ИИ.

arxiv arXiv cs.CL · 1 д назад

Разделение задачи для эффективной аннотации

Мы предлагаем разделять структурированные задачи аннотации на подзадачи, чтобы снизить общую инференциальную нагрузку. Определяя значимые центральные сущности — центры в пространстве допустимых аннотаций — мы ограничиваем сложность вывода и повышаем эффективность затрат. Мы предоставляем руководства по разделению задач и процедуру распределения подзадач между людьми и модельными аннотаторами для достижения оптимального качества при фиксированных бюджетах.

arxiv arXiv cs.CL · 1 д назад

Постериорная коррекция: быстрая генерация языка через любые порядки карт потоков

FMLM+ вводит постериорную коррекцию, стратегию, позволяющую адаптивную самокоррекцию во время инференса. Сочетая транспорт карт потока с маскирующими схемами шума, достигается высокая точность генерации языка при 32 раза меньшем количестве оценок без шума, что превосходит как MDM, так и FMLM по соотношению скорости и качества.

arxiv arXiv cs.CL · 1 д назад

Соответствие задачи и рамочной структуры для моделей кодировщиков-декодеров

Этот исследовательский проект представляет рамку Match Task to Objective (MTO), которая позволяет сопоставить цели предобучения и настройки с конкретными задачами. Рамка обеспечивает автоматическую, неподконтрольную адаптацию данных и обеспечивает рост производительности более чем на 120% в условиях малообучающих данных, превосходя базовые методы как в условиях малообучающих данных, так и в условиях полного набора данных. Кроме того, она улучшает настройку промптов, предоставляя эффективные рекомендации по мягкому инженерированию промптов.

arxiv arXiv cs.CL · 1 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 1 д назад

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.

arxiv arXiv cs.CL · 2 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 2 д назад

Эра LLM: Бенчмарк для логического мышления и дипломатии в LLM

Age of LLM вводит турнирный бенчмарк 1 против 1, где два LLM соревнуются на сетке размером 13x7 под условиями тумана, полной дипломатии и строгих правил надежности в формате JSON. Результаты показывают, что ядерный рывок доминирует, дипломатия является распространённой, но редко приводит к успеху, а незаконные действия выявляют ошибки в отслеживании убеждений, при этом между надежностью и победой существует слабая связь. Корпус является малым и несбалансированным, и результаты дают предварительное представление о логическом мышлении LLM в условиях противодействующей неопределённости.

arxiv arXiv cs.CL · 2 д назад

ExtractConf: Многосигнальный двигатель уверенности для извлечения документов из LLM

ExtractConf вводит двигатель уверенности, который использует двойное чтение LLM — направленное на поля и направленное на документ — для обнаружения ненадежных извлечений. Он объединяет несогласие между вызовами, неопределенность LLM и сигналы документа в классификатор, достигая значения ROC AUC 0,928 на счетах и снижая риски селективного предсказания на 70%.

arxiv arXiv cs.CL · 2 д назад

Байесовский контроль для агентов кодирования

Байесовский контроль улучшает решения о применении инструментов в агентах кодирования, моделируя неопределенность и динамически выбирая действия. Метод превосходит регулярные системы координации, особенно когда проверка является дорогостоящей и критики предоставляют информативную, но несовершенную обратную связь. Метод также обеспечивает более интерпретируемую оценку корректности, чем метрики на основе вероятности токенов или чистого успеха инструмента.