Reasoning models
arxiv arXiv cs.LG · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 выявляет скрытый код знака в поздних блоках, что указывает на существование идентичности фазы/знака во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи результатов.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.LG · 9 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.