Все статьи — korshunov.ai

Все статьи Страница 1 / 113

LLM хуже оценивают, чем генерируют в контекстном QA

Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.

arxiv arXiv cs.CL · 5 ч назад

MultiHashFormer: Генеративные языковые модели на основе хеширования

В статье представлен MultiHashFormer — фреймворк, обеспечивающий хеш-авторегрессию в причинных языковых моделях за счет представления токенов в виде уникальных сигнатур дискретных хеш-идентификаторов. Этот подход позволяет модели сжимать информацию о токенах в латентные векторы для обработки трансформером, а затем отображать их обратно в текст, эффективно решая проблемы коллизий «многие-к-одному», которые ранее препятствовали использованию хеширования в генеративных контекстах.

arxiv arXiv cs.CL · 5 ч назад

Слияние данных с одним и несколькими истинами с использованием больших языковых моделей

В данной работе исследуется применение больших языковых моделей (LLM) для задач слияния данных, включающих табличные данные, охватывая как сценарии с одной истиной, так и с несколькими.

arxiv arXiv cs.CL · 6 ч назад

Предел масштабирования случайной языковой модели

В данной статье разрабатывается количественная теория для Случайной Языковой Модели (RLM) в пределе масштабирования, когда количество скрытых символов стремится к бесконечности, а температура грамматики стремится к нулю при фиксированном соотношении. Исследование показывает, что модель допускает контролируемое описание на основе принципа больших отклонений для паттернов использования правил, сводя задачу к Случайным Энергетическим Моделям с нетривиальной комбинаторикой.

arxiv arXiv cs.CL · 6 ч назад

Мониторы на основе механизма для превентивного обнаружения нестабильности обучения LLM

В этой статье представлены мониторы на основе механизма, предназначенные для обнаружения нестабильности обучения больших языковых моделей до того, как она нанесет значительный ущерб. За счет извлечения внутренних сигналов из функциональных ролей критических модулей эти мониторы выявляют сбои за тысячи шагов раньше, чем традиционные методы, основанные на функции потерь.

arxiv arXiv cs.CL · 6 ч назад

От токенов к состояниям: LLM как частный случай мировых моделей

Статья оспаривает дихотомию между большими языковыми моделями и мировыми моделями, утверждая, что LLM на самом деле являются вырожденным частным случаем мировых моделей, а не их заменой. Предполагается, что существует непрерывный спектр от предсказания следующего токена до архитектур в латентном пространстве, при этом текущие исследования уже занимают промежуточные позиции.

arxiv arXiv cs.CL · 6 ч назад

Epi2Diff: Использование трасс рассуждений LLM для предсказания сложности заданий для человека

Исследователи представляют Epi2Diff, фреймворк, который отображает трассы Large Reasoning Model (LRM) в когнитивно обоснованные эпизодические последовательности для предсказания сложности заданий для человека в образовательной оценке. Моделируя сложность через масштаб рассуждений, распределение усилий и переходы состояний, метод предоставляет интерпретируемую альтернативу дорогостоящей человеческой калибровке.

arxiv arXiv cs.CL · 6 ч назад

HPRO: Иерархическая прогрессивная оптимизация вознаграждения для эмоционального TTS

Авторы предлагают HPRO — иерархическую прогрессируемую схему оптимизации вознаграждения, предназначенную для повышения эмоциональной выразительности в моделях преобразования текста в речь на основе LLM при сохранении лингвистической понятности. Этот подход устраняет структурные несоответствия существующих методов, основанных на предпочтениях, путем изоляции содержания и эмоций, а также преодоления разрыва между разреженными вознаграждениями и плотной генерацией.

arxiv arXiv cs.CL · 6 ч назад

Vision-Default, Prior-Override: Каузальные механизмы конфликта восприятия и знаний в моделях визуального языка

В данном исследовании изучается, как модели визуального языка разрешают конфликты между визуальными доказательствами и запомненными мировыми знаниями путем объединения активационного патчинга с механистическим анализом в рамках трех семейств моделей. Исследование выявляет разреженный каузальный контур, где визуальное заземление является режимом по умолчанию, а его переопределение с помощью предварительных знаний требует специфических голов внимания.

arxiv arXiv cs.CL · 6 ч назад

Google представляет инструмент Paper Assistant для автоматизированного научного рецензирования

Чтобы решить проблемы масштабируемости традиционного рецензирования в эпоху науки с ИИ-ассистентами, исследователи предлагают таксономию взаимодействия человека и ИИ и представляют инструмент Paper Assistant Tool (PAT). PAT — это агентная ИИ-система, предназначенная для обработки полных научных рукописей и создания комплексных оценок путем проверки теоретических результатов, валидации экспериментов и выявления потенциальных недостатков.

media r/LocalLLaMA · 6 ч назад

Запуск Llama 3.1 405B на одном узле с 8xA100 с горяче загружаемыми LoRA-адаптерами

Пользователь демонстрирует успешный запуск модели Llama 3.1 405B, квантованной до AWQ-INT4, на одном узле, оснащенном восемью GPU A100 по 80 ГБ, что позволяет загружать и переключать до 30 тонко настроенных специалистов менее чем за 200 мс.

media r/LocalLLaMA · 6 ч назад

Ubuntu, CUDA, llama.cpp , версионирование nvcc

Пользователь делится опытом решения проблем с версионированием набора инструментов CUDA на Ubuntu для включения вычислительных возможностей для новых GPU, таких как архитектура Blackwell и RTX 5060 Ti. В посте отмечается, что репозиторий apt по умолчанию предоставляет устаревшие версии CUDA, что требует ручной установки пакета Debian с сайта NVIDIA.

arxiv arXiv cs.LG · 7 ч назад

Оценка транспортных потоков без моделирования на основе разреженных данных подсчёта

Авторы предлагают метод оценки изменяющихся во времени паттернов транспортных потоков по разреженным агрегированным данным подсчёта транспортных средств путём разделения изучаемой области и решения задачи оптимизации взвешенного метода наименьших квадратов. Этот подход использует матрицу взвешенного вклада для кодирования покрытия датчиками, направляя оптимизатор к конфигурациям потоков, которые непосредственно наблюдаемы.

arxiv arXiv cs.LG · 7 ч назад

SQLConductor: Обучение от поиска к политике для пошаговой оркестровки Text-to-SQL

В статье представлен SQLConductor, фреймворк обучения пошаговой оркестровке для Text-to-SQL, который формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи.

arxiv arXiv cs.LG · 7 ч назад

VeriEvol: Масштабирование мультимодального математического рассуждения через верифицируемое эволюционное обучение

VeriEvol — это итеративная система, предназначенная для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа на этапе конструирования данных. Она использует модуль эволюции с учетом типа для генерации более сложных промптов и верификатор HTV-Agent для обеспечения правильности ответов посредством поиска контрдоказательств из нескольких источников.

arxiv arXiv cs.LG · 7 ч назад

Потребление энергии при тонкой настройке трансформеров: модель масштабирования, вдохновленная roofline

В данной статье представлена框架 для моделирования энергопотребления обучения трансформеров на нескольких GPU, направленная на решение растущих вычислительных затрат в контексте устойчивого проектирования систем.

arxiv arXiv cs.LG · 7 ч назад

SuperCond-GNN: Масштабируемая суррогатная модель графовых нейронных сетей для симуляций сверхпроводящих цепей

В данной статье представлена SuperCond-GNN, суррогатная модель на основе графовых нейронных сетей, предназначенная для прогнозирования распределения напряжения в высокотемпературных сверхпроводящих магнитах путем отображения эквивалентных схем с сосредоточенными параметрами на графовые представления. Модель достигает среднего MAPE 4.3% на ленточных стопках и обеспечивает быстрое вычисление перераспределения тока в различных конфигурациях цепей.

arxiv arXiv cs.LG · 7 ч назад

Аппроксимация полей скоростей с помощью внедренных аттракторов через Neural-ODEs для классификации

В данной работе используются нейронные ОДУ, оснащенные тщательно подобранным набором точек равновесия, для выполнения задач классификации. Внедренные аттракторы служат индикаторами целевых классов, а поле скоростей формирует динамический ландшафт, направляя входные данные к их соответствующим пунктам назначения.

arxiv arXiv cs.LG · 7 ч назад

Мысли о планировании: обучение порядку рассуждений в диффузионных языковых моделях

Исследователи предлагают метод Self-Aware Scheduling (SAS), который обучает оптимальный порядок раскрытия токенов для маскированных диффузионных языковых моделей с целью улучшения качества генерации. Выводя достижимую верхнюю границу несоответствия последовательного декодирования, подход формулирует выбор порядка как задачу оптимизации политики с использованием Group Relative Policy Optimization.

media r/LocalLLaMA · 7 ч назад

Minimax M3 против M2.7

Пользователь Reddit просит отзывы от тех, кто обновился с модели Minimax M2.7 до версии M3. В посте ищутся мнения сообщества о различиях и производительности между этими двумя версиями.