Все статьи — korshunov.ai

Все статьи Страница 1 / 96

SQLConductor: Обучение политике поиска для пошаговой оркестрации Text-to-SQL

Авторы предлагают SQLConductor, пошаговую обучающуюся систему оркестрации Text-to-SQL, которая устраняет ограничения фиксированных конвейеров и статических методов «план-затем-выполнение». Эта система формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи. Для обучения этой политики фреймворк вводит обучение политике поиска (Search-to-Policy Learning), которое использует поиск по дереву Монте-Карло для исследования кандидатов рабочих процессов и оценку стабильности для выявления надежной обучающей выборки. Модель политики обучается с помощью взвешенного стабилизацией контролируемого тонкого дообучения (Stability-weighted Supervised Fine-tuning) для приоритизации высококачественных паттернов оркестрации и дополнительно улучшается с помощью обучения с подкреплением по программе (Curriculum Reinforcement Learning). Этот подход преобразует оффлайн-поиск рабочих процессов в развертываемую политику для пошаговой оркестрации во время вывода. Эксперименты на наборах данных BIRD-Dev и вне распределения показывают, что SQLConductor достигает точности выполнения 73,2%, превосходя предыдущие методы с сопоставимыми или более крупными базовыми моделями. Результаты демонстрируют превосходную точность выполнения и сильную обобщающую способность при координации замороженных более крупных моделей действий.

arxiv arXiv cs.AI · 4 ч назад

VeriEvol: Масштабирование мультимодального математического рассуждения с помощью верифицируемого Evol-Instruct

Авторы представляют VeriEvol, итеративную структуру, предназначенную для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа. Этот подход решает проблему поддержания надежных меток вознаграждения по мере увеличения объема данных в конвейерах обучения с подкреплением. Система использует модуль эволюции, учитывающий тип данных, для переписывания семян низкой сложности в более сложные промпты, привязанные к изображениям, с помощью операторов, специфичных для маршрута. Верификация ответов выполняется агентом HTV-Agent, который принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть. Масштабирование данных для эволюционного супервизорного тонкого настраивания с 10 тыс. до 250 тыс. примеров увеличило среднюю точность на пяти бенчмарках с 35,42 до 54,73. При интеграции с фиксированным рецептом GRPO VeriEvol обеспечил совокупный прирост +3,88 по сравнению с базовой линией без эволюции. Это улучшение объясняется приростом +1,82 от эволюционированных промптов и +2,06 от верификатора HTV-Agent. Авторы публикуют все промпты, данные, модели, код и полные трассы верификатора для обеспечения последующей аудиторской проверки и масштабирования.

arxiv arXiv cs.AI · 4 ч назад

Потребление энергии при тонкой настройке трансформеров: Масштабируемая модель, вдохновленная концепцией roofline

Авторы представляют фреймворк для моделирования энергопотребления обучения трансформеров на нескольких GPU, отвечая на потребность в устойчивом проектировании систем по мере роста вычислительных затрат. Проводя контролируемые архитектурные исследования на моделях BERT, они связывают измеренное энергопотребление с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования. Подход вдохновлен моделями roofline и включает фактор эффективности оборудования, основанный на ускорении, чтобы учесть тензорный параллелизм и полностью фрагментированный параллелизм данных (fully sharded data parallelism). Эта методология позволяет вывести модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях. Работа подчеркивает критическую важность прогнозирования энергопотребления по мере роста размера модели и масштаба параллелизма. Она предоставляет практический инструмент для проектирования с учетом затрат в системах обработки естественного языка крупного масштаба.

media r/LocalLLaMA · 4 ч назад

Пользователь Reddit задаётся вопросом о целесообразности RTX 6000 Pro на фоне роста цен

Пользователь сообщества r/LocalLLaMA на Reddit ищет совет по покупке видеокарты NVIDIA RTX 6000 Pro. Автор поста отмечает, что цена значительно выросла с примерно $8 000 шесть месяцев назад до около $13 000 в настоящее время. Он просит отзывы от владельцев о том, насколько они довольны этим оборудованием. В частности, пользователь спрашивает, стоит ли вкладывать средства в эту карту для запуска моделей, таких как Qwen 2.5 7B. Пост призван помочь покупателю обосновать расходы перед супругой, собрав реальный опыт использования.

lab Hugging Face Blog · 4 ч назад

Анализ точности предсказания токенов в гибридных языковых моделях

Недавнее исследование изучает, какие именно токены гибридные языковые модели предсказывают более точно по сравнению со стандартными плотными архитектурами. Исследование сосредоточено на понимании распределения ошибок предсказания среди различных типов токенов, таких как редкие слова и фрагменты кода. Анализируя ландшафты потерь, авторы выявляют, что гибридные модели превосходят в захвате долгосрочных зависимостей в областях разреженных данных. Результаты указывают на то, что механизм смеси экспертов (mixture of experts) позволяет более эффективно использовать параметры во время вывода (инференса). Эта улучшенная точность особенно заметна для токенов с низкой частотой в обучающей выборке. В статье представлен подробный разбор метрик производительности по различным наборам данных для тестирования (бенчмаркам). Эти результаты подчеркивают потенциал гибридных архитектур для эффективной обработки разнообразных лингвистических структур.

arxiv arXiv cs.AI · 5 ч назад

Самоосознающее планирование обучает порядку размаскирования токенов в диффузионных языковых моделях

Авторы предлагают метод Self-Aware Scheduling (SAS) для оптимизации порядка размаскирования токенов в маскированных диффузионных языковых моделях, что существенно влияет на качество генерации. Они выводят вычислимую верхнюю границу несоответствия последовательного декодирования с использованием расхождения Кульбака-Лейблера и логарифмического правдоподобия по траекториям. Эта граница формирует плотное вознаграждение, основанное на самоосознании, которое представляет выбор порядка как задачу оптимизации политики с замороженным денoiserом (denoiser). SAS обучает легковесную политику порядка с помощью Group Relative Policy Optimization, поддерживая как декодирование в любом порядке, так и полуавторегрессионное декодирование. На задачах судоку с моделью на 1 млрд параметров точность улучшилась с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа. Для математических рассуждений с LLaDA-8B метрика pass@1 на GSM8K увеличилась с 64% до 76%. Метод также повысил баллы MBPP с 39,5% до 41%, последовательно соответствуя или превосходя эвристические расписания при различных параметрах.

arxiv arXiv cs.AI · 5 ч назад

KORE: Законы масштабирования, оптимальные по Колмогорову, для сплайн-регрессии

Исследователи предлагают KORE — метод, который решает задачу нахождения оптимального разрешения сплайна в аналитическом виде, вместо того чтобы полагаться на поиск гиперпараметров. Подход опирается на классическую теорию аппроксимации, привязывая квадрат смещения к n-ширине Колмогорова, и использует тождество PRESS для оценки ошибки методом «leave-one-out» (отсутствие одного наблюдения). Балансируя эти известные кривые, алгоритм аналитически определяет минимум без исчерпывающего перебора по сетке. KORE расширяет этот расчет на высокие размерности, заменяя размерность входного пространства порядком взаимодействия в разложении ANOVA. Алгоритм подгоняет два пилотных разрешения и решает систему, калиброванную по показателю влияния (leverage), для оценки плагируемого разрешения при минимальных вычислительных затратах. На аддитивных и разреженных парных целевых переменных вплоть до 80 измерений KORE достигает точности, сопоставимой с исчерпывающей перекрестной проверкой, обучая примерно в восемь раз меньше моделей. На 36 реальных табличных наборах данных он занял первое место среди 21 метода по точности на единицу вычислений.

arxiv arXiv cs.AI · 5 ч назад

Kamera: Обучение не требующий позиционно-инвариантный мультимодальный KV-кэш для эффективного повторного использования

Авторы представляют Kamera, метод, обеспечивающий повторное использование мультимодальных ключ-значительных (KV) кэшей без обучения путем устранения потери межчунковой условной зависимости при наивном префиксном кэшировании. Стандартное слияние состояний восстанавливает прямые выводы, но не сохраняет диффузный остаток низкого ранга в глубоких слоях, необходимый для многошагового рассуждения, что снижает точность вдвое. Для устранения этой проблемы Kamera хранит небольшой тренировочный патч условной зависимости низкого ранга рядом с каждым позиционно-свободным чунком. Этот подход позволяет точно выполнять повторное вращение RoPE и восстанавливать межчунковую привязку в механизмах внимания MLA, GQA и MHA. Система поддерживает дешевые операции перестановки, выживания скользящего окна и поиска без необходимости перекодирования вытесненных чунков. Эксперименты показывают, что патч ранга-m восстанавливает полную точность задачи на бенчмарках межчунковой привязки, таких как MM-NIAH и двухстраничная документальная QA. Решение реконструирует KV для повторного префилла с точностью до округления bf16 в производственном ядре SGLang для шести бэкбонов, сохраняя лишь долю исходного объема KV.

arxiv arXiv cs.AI · 5 ч назад

Децентрализованное автономное управление движением с помощью коридорных сетей

В данном исследовании рассматривается недостаточность централизованного управления для высокоструктурированного трафика автономных летательных аппаратов путем предложения децентрализованного подхода, использующего многоагентное обучение с подкреплением (MARL). Исследователи расширяют эту рамку MARL для управления потоком трафика в сложных сетях воздушных коридоров, включающих слияния и разветвления. Политики, обученные в условиях одного коридора, тестируются в increasingly сложных многокоридорных сценариях нулевым способом (zero-shot) без повторного обучения. Экспериментальные результаты показывают, что изученное поведение эффективно переносится на различные плотности трафика, геометрии сетей и гетерогенные характеристики летательных аппаратов. Оценка измеряет производительность системы на уровне сети через соблюдение границ, показатели завершения, средние скорости, пройденное расстояние и межвоздушное расстояние. Несмотря на то, что требуется только локально скоординированное поведение входа, прохождения и выхода, коллективные действия создают желаемые потоки трафика по всей коридорной сети.

arxiv arXiv cs.AI · 5 ч назад

Enactor: Генеративная модель для замкнутого цикла микросимуляции перекрестков со светофорами

Авторы представляют Enactor, ориентированную на акторов генеративную модель, предназначенную для микросимуляции в замкнутом цикле на перекрестках со светофорами. В отличие от традиционных симуляторов, опирающихся на вручную созданные правила или предсказатели с коротким горизонтом, Enactor фокусируется на динамике транспортных средств, рассматривая пешеходов как контекстные влияния. Архитектура кодирует динамических акторов и полилинии полос в полярных координатах относительно центра перекрестка. Трансформер с отдельными блоками пространственного и временного внимания предсказывает распределение параметров движения каждого актора на следующем шаге. Обучение использует замкнутую учебную программу, подвергая модель ее собственным предсказаниям для обеспечения стабильности во время симуляции. Оценка на двух геометриях перекрестков показывает, что Enactor восстанавливает распределения генератора данных SUMO с значительно меньшей расхождением Кульбака-Лейблера (KL) по сравнению с базовыми моделями на основе трансформеров. Модель также сокращает нарушения правил проезда на красный свет более чем на порядок величины и превосходит базовые модели с постоянной скоростью на реальных полевых данных.

arxiv arXiv cs.AI · 5 ч назад

Персистентная гомология обнаруживает и направляет ответы LLM на некорректно поставленные вопросы

Исследователи предлагают использовать конечную персистентную гомологию нулевой размерности для представления топологии некорректно поставленных вопросов в больших языковых моделях. Метод моделирует контекстные скрытые состояния как точечные облака, суммируя каждый слой трансформера с помощью трех дескрипторов: среднего конечного времени жизни, нормализованной энтропии времени жизни и концентрации наибольшего времени жизни. Эти дескрипторы конкатенируются по слоям для формирования единого топологического представления внутреннего состояния запроса. В исследовании вводится топологически обусловленное управление активацией, которое извлекает похожие примеры для построения вмешательств, стимулирующих уточнение или воздержание от ответа. Оценки на наборах данных AmbigQA, SituatedQA и CLAMBER показывают, что данный подход превосходит базовые методы на основе промптов, улучшая точность классификации с 67,4% до 78,9% на AmbigQA. На SituatedQA точность увеличилась с 79,9% до 88,5%, а на CLAMBER наблюдался рост с 57,6% до 69,6%. Кроме того, механизм управления повысил средний общий уровень приемлемых ответов с 61,4% до 70,6% для трех моделей LLM с открытым весом.

arxiv arXiv cs.AI · 5 ч назад

SPIRAL: Обучение поиску и агрегации

Авторы представляют Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL) — фреймворк, который обучает языковые модели одновременно использовать последовательные, параллельные и агрегативные примитивы рассуждений. В отличие от стандартных методов постобучения, оптимизирующих только однопоточное последовательное рассуждение, SPIRAL объединяет эти компоненты в единый конвейер вычислений при выводе. Модель сначала генерирует независимые трассы параллельно с использованием цепочки мыслей (chain-of-thought), а затем формирует итоговую агрегативную трассу на основе этих входных данных. Весь этот процесс оптимизируется сквозным образом по отношению к награде итогового агрегированного ответа с помощью методов обучения с подкреплением для множеств и стандартных техник обучения с подкреплением. Эксперименты на задачах рассуждения демонстрируют, что SPIRAL эффективно масштабируется вместе с ресурсами вычислений при выводе. Подход превосходит GRPO по эффективности масштабирования до 11 раз и достигает на 15% более высокой производительности, когда масштабируются все три примитива вычислений.

arxiv arXiv cs.AI · 5 ч назад

Против прокси-оптимизации

Автор обсуждает условия, при которых максимизация функции полезности прокси может привести к вредным последствиям. Этот анализ предполагает, что такие сценарии создают значительные проблемы для применения стандартной теории принятия решений. В тексте выделяются конкретные обстоятельства, при которых оптимизация по отношению к суррогатной цели расходится с предполагаемыми результатами. Эти выводы ставят под сомнение устойчивость текущих теоретических框架, используемых в искусственном интеллекте и экономике. Выявляя эти режимы отказа, работа стремится уточнить подход к проектированию агентов для предотвращения непредвиденных последствий.

arxiv arXiv cs.AI · 5 ч назад

Polycepta: Оценка внешнего вида на основе объектов для многообъектного отслеживания

Авторы представляют Polycepta, фреймворк оценки состояния внешнего вида на основе объектов, который переформулирует моделирование внешнего вида как задачу рекурсивной оценки. В отличие от традиционных методов, опирающихся на статические дескрипторы, независимые от кадров, Polycepta строит и непрерывно обновляет независимые состояния внешнего вида для каждого отслеживаемого объекта. Этот подход позволяет оценивать будущие представления на основе накопленных наблюдений, а не запоминать их с помощью конкретной стратегии обучения. Ключевой особенностью является то, что качество оценки внешнего вида прогрессивно улучшается по мере эволюции состояний объектов в процессе вывода. Фреймворк обеспечивает оценку внешнего вида для ранее не встречавшихся классов за счет стимулирования обучения построению представлений, специфичных для объекта. Масштабные эксперименты на наборах данных KITTI, Waymo Open Dataset и MOT17 демонстрируют последовательное снижение количества переключений идентичности и улучшение производительности отслеживания. При интеграции во фреймворк RobMOT Polycepta работает с частотой 90,57 Гц и достигает MOTA 92,27% на бенчмарке KITTI.

arxiv arXiv cs.AI · 5 ч назад

Двустороннее обучение позволяет обеспечить линейную связность режимов для трансформеров с миллиардами параметров

Исследователи предлагают масштабируемую структуру, обеспечивающую объединение на основе линейной связности режимов для предварительно обученных трансформеров с миллиардами параметров. Существующие методы обычно оптимизируют пути интерполяции только от одной конечной точки модели, что ограничивает масштабируемость для крупных архитектур. Новый подход применяет параметризованные преобразования весов для согласования функционально эквивалентных решений и использует процедуру двустороннего обучения, при которой обе модели совместно обучаются преобразованиям к общему пути. Эта двунаправленная оптимизация существенно снижает барьеры интерполяции и повышает надежность объединения в масштабе крупных моделей. Эмпирически метод достигает почти нулевых барьеров потерь на датасете WikiText для языковых моделей среднего размера. В задачах компьютерного зрения ViT-L сохраняет точность ImageNet top-1 выше 69% на протяжении всего пути интерполяции. Современные большие языковые модели (LLM) с миллиардами параметров демонстрируют лишь небольшие барьеры потерь при использовании этой техники.

arxiv arXiv cs.AI · 6 ч назад

Причинно-следственный вывод в эпоху агентов

Недавние усилия по интеграции больших языковых моделей с причинно-следственным выводом часто опираются на вывод структур графов или внедрение выходов в качестве априорных знаний, что создает риск смешения текстовых ассоциаций с подлинными причинно-следственными доказательствами. Авторы утверждают, что агенты должны вместо этого помогать рабочему процессу путем анализа данных, извлечения контекста и уточнения предположений, не предоставляя ребра, ориентации или причинно-следственные выводы. Они предлагают принцип, гарантирующий, что причинные утверждения остаются обоснованными данными, явными предположениями, формальными алгоритмами, диагностикой и решениями экспертов. Для реализации этого подхода они представляют causal-learn+, онлайн-платформу, координирующую предварительную обработку, рекомендацию методов и интерпретацию в рамках экосистемы causal-learn. Кейс-стади на данных о «Большой пятерке» личностных черт демонстрирует конвейер с поддержкой агента, который избегает трактовки ненадежности языковых моделей как причинно-следственных доказательств. Платформа доступна по адресу causallearn.com.

arxiv arXiv cs.AI · 6 ч назад

Нейронные классификационные деревья разделяют скрытые подгруппы для надежного машинного обучения

Модели машинного обучения часто используют ложные корреляции, что приводит к высокой средней точности, но плохой производительности на недостаточно представленных подгруппах. Существующие стратегии смягчения обычно корректируют параметры сети с использованием аннотаций подгрупп или выведенных псевдометок. Однако эти методы, как правило, выдают только предсказание класса во время вывода (inference), не предоставляя информации о структуре скрытой подгруппы образца. Чтобы решить эту проблему, авторы предлагают Нейронные классификационные деревья (NCT) — фреймворк, который кодирует структуру подгрупп в своей древовидной архитектуре. NCT направляет каждый образец к легкому или сложному узлу на основе правильности предсказания и повторно использует эти маршруты в качестве псевдометок для последующих итераций. Этот процесс разделяет конфликтующие подгруппы без необходимости явного надзора по подгруппам. Подход был оценен на пяти наборах данных, охватывающих бинарные и многоклассовые ложные корреляции. Эксперименты показывают, что изученная топология дерева изолирует меньшинственные подгруппы, обеспечивая высокую интерпретируемость и конкурентоспособную надежность по сравнению с современными методами.

arxiv arXiv cs.AI · 6 ч назад

RECALL: Активное пожизненное обучение для моделей Vision-Language-Action

В статье представлен RECALL — активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), которая устраняет неэффективности пассивного обучения с подражанием. В отличие от традиционных методов, требующих отказов робота для инициирования сбора данных, данный подход использует демонстрации восстановления, направляемые неопределённостью, для проактивного выявления состояний, нуждающихся в надзоре. Авторы демонстрируют, что такой целевой сбор данных приводит к более эффективной донастройке по сравнению с пассивно собранными демонстрациями. Однако исследование показывает, что донастройка исключительно на этих активных данных восстановления вызывает катастрофическое забывание ранее изученных поведений. Для смягчения этой проблемы в работе оцениваются техники непрерывного обучения, такие как смешивание данных на основе воспроизведения и эластичная консолидация весов. Эти эксперименты подчеркивают критические компромиссы между пластичностью для новых задач и сохранением существующих возможностей в авторегрессионных VLA. В конечном итоге исследование устанавливает, что, хотя восстановление, направляемое неопределённостью, повышает эффективность адаптации, интеграция целевых новых данных в крупные роботизированные политики представляет значительные открытые проблемы.

media r/LocalLLaMA · 6 ч назад

llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel

Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.

media r/LocalLLaMA · 6 ч назад

GLM 5.2 работает со скоростью 12 токенов/с на аппаратной платформе с двумя RTX 5090

Пользователь протестировал квантованную версию unsloth для GLM 5.2 на высокопроизводительной потребительской рабочей станции, оснащённой двумя GPU RTX 5090 и процессором Threadripper Pro на архитектуре Zen5. В системе использовалось 512 ГБ оперативной памяти DDR5 ECC, а конфигурация включала специфические флаги компиляции llama.cpp для активации оптимизаций CUDA и обработки единого адресного пространства (unified memory). Веса модели были загружены из квантования UD-Q5_K_S, что составило примерно 492 ГБ в совокупности по нескольким GGUF-файлам. Тестирование производительности включало запуск llama-server с размером контекста 32768 токенов и специфическими параметрами потоков для изоляции NUMA. Результаты бенчмарка стабильно показывали скорость вывода в 12 токенов в секунду во время чат-взаимодействий без использования агентных рабочих процессов. Дополнительные эксперименты выявили, что исключение некоторых флагов оптимизации, таких как flash attention или настройки NUMA, приводило к незначительным изменениям пропускной способности.