Все статьи
lab Microsoft Research Blog · 8 ч назад

Понимание работы мозга с помощью объяснений и экспериментов на базе ИИ

Исследователи разработали Generative Causal Testing (GCT) — фреймворк, который переводит неинтерпретируемые модели предсказания активности мозга на основе LLM в краткие, проверяемые вербальные гипотезы о функциях коры. Этот метод сжимает параметры модели в короткие фразы, описывающие, на какие стимулы реагируют определенные области мозга, например «приготовление пищи», а затем проверяет эти объяснения с помощью целевых фМРТ-экспериментов.

arxiv arXiv cs.LG · 8 ч назад

CoorDex: Координация телесных и кистевых априори для непрерывной ловкой манипуляции человекоподобного робота

Авторы представляют CoorDex, конвейер обучения, который обеспечивает ловкую локомоно-манипуляцию с высокой степенью свободы на движущихся человекоподобных роботах путем преобразования управления телом и кистью в скоординированное латентное остаточное управление. Этот подход позволяет человекоподобному роботу Unitree G1 выполнять сложные задачи, такие как захват бутылки без остановки и открытие дверцы холодильника, находясь в движении.

arxiv arXiv cs.LG · 9 ч назад

AutoDex: Автоматизированная система реального мира для сбора данных о ловком захвате

AutoDex — это автоматизированная система, предназначенная для замыкания цикла сбора данных о ловком захвате в реальном мире путем обработки восприятия, выполнения, маркировки и сброса без вмешательства человека. Она решает проблемы масштабируемости телеоперации и отсутствия физической сертификации в симуляции, генерируя кандидаты на захват и проверяя их на реальном оборудовании.

arxiv arXiv cs.AI · 9 ч назад

Адаптивные жёстко-мягкие физически обусловленные нейронные сети для устойчивого решения УЧП с ограничениями на границе

В данном исследовании предлагается унифицированная жёстко-мягкая физически обусловленная нейронная сеть (HSPINN) с адаптивным взвешиванием потерь для решения проблем медленной сходимости и неточного выполнения граничных условий в традиционных PINN. Фреймворк обеспечивает точное выполнение граничных условий Дирихле и периодических граничных условий посредством аналитического подъёма или маскирования, тогда как невязки УЧП и начальные условия рассматриваются как мягкие ограничения, балансируемые с помощью стратегии обратного софтмакса.

arxiv arXiv cs.AI · 9 ч назад

Переосмысление молекулярных графовых бэкдоров с учётом химически осознанного допуска

В статье представлен ChemGuard, операционный протокол, формализующий упускаемый из виду этап допуска в конвейерах обучения на молекулах за счёт требования санитизируемых строк и согласованной реконструкции графа. Эта рамка показывает, что многие существующие графовые бэкдоры теряют эффективность, поскольку их яды химически некорректны или несогласованы с представлением.

arxiv arXiv cs.AI · 9 ч назад

Измерение и смягчение эффекта пере-выравнивания для больших языковых моделей в многоязычных уголовных судах

В данной статье рассматривается проблема пере-выравнивания больших языковых моделей, используемых в контексте уголовного права Швейцарского федерального верховного суда, где защитные механизмы модели часто вызывают отказы при обработке конфиденциальных деталей дел. Авторы представляют TF-RefusalBench — многоязычный бенчмарк, созданный на основе публичных судебных решений, для измерения этого явления на французском, немецком, итальянском и английском языках.

arxiv arXiv cs.AI · 9 ч назад

Трансформеры на основе энергии как предикторы сложности чтения

В данном исследовании представлены трансформеры на основе энергии в качестве новой меры для прогнозирования сложности чтения человеком, устанавливающей формальную связь между моделями трансформеров и литературой по ассоциативной памяти, такой как сети Хопфилда.

arxiv arXiv cs.AI · 9 ч назад

Распределенно-осознанный Diffusion-LLM для устойчивого прогнозирования временных рядов на сверхдлинных горизонтах

Авторы предлагают Diffusion-LLM, фреймворк, который интегрирует условную диффузионную модель в конвейер на основе LLM для решения задач прогнозирования мультимодальных временных рядов. Такое совместное проектирование позволяет обучаться будущим распределениям данных, одновременно улучшая семантическое выравнивание в общем латентном пространстве.

media r/LocalLLaMA · 9 ч назад

Быстрый медицинский RAG-API для предоставления локальным LLM доступа к фактам

Разработчик выпустил бесплатный и простой API для Retrieval-Augmented Generation (RAG), основанный на статьях медицинской Википедии, чтобы обеспечить локальным большим языковым моделям точную фактическую информацию. Сервис ориентирован на время ответа менее секунды и в настоящее время работает на одном ARM VPS, используя около 2 ГБ оперативной памяти.

media r/LocalLLaMA · 9 ч назад

Срок службы ОС DGX Spark?

Пользователь на Reddit спрашивает, раскрыла ли Nvidia сроки поддержки операционной системы, работающей на оборудовании DGX Spark. Запрос касается в частности продолжительности поддержки ОС и того, не будут ли пользователи вынуждены в ближайшем будущем, например к 2028 году, переходить на новые продукты.

arxiv arXiv cs.AI · 9 ч назад

Автоматизированная семантическая локализация ошибок в SysML v2 с использованием LLM, дополненных графом знаний

В данной статье представлен фреймворк с участием человека для автоматического выявления и исправления семантических ошибок в моделях SysML v2, которые не могут быть обнаружены компиляторами. Подход объединяет дообученные малые языковые модели (Small Language Models) с графом предметных знаний, чтобы обосновать предложения по исправлению в рамках корректных инженерных ограничений.

arxiv arXiv cs.AI · 9 ч назад

Litmus: Нулевая разметка, управляемое кодом задание метрик для оценки ИИ-систем

Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.

arxiv arXiv cs.AI · 9 ч назад

ReasoningLens: Иерархическая визуализация и диагностический аудит для больших моделей рассуждений

Появление больших моделей рассуждений привело к формированию исключительно длинных трасс цепочки рассуждений (Chain-of-Thought), что создало проблему прозрачности, при которой критическая логика часто теряется в массивах процедурного текста. Для решения этой проблемы авторы представляют ReasoningLens — фреймворк с открытым исходным кодом, предназначенный для иерархической визуализации и диагностического аудита сложных цепочек рассуждений.

arxiv arXiv cs.AI · 10 ч назад

HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей

HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.

arxiv arXiv cs.AI · 10 ч назад

UnBias-Plus: Обнаружение, объяснение и устранение смещения

UnBias-Plus — это набор инструментов с открытым исходным кодом, предназначенный для решения проблемы устойчивого смещения в естественном языке путем объединения возможностей обнаружения, объяснения и нейтрального перефразирования.

arxiv arXiv cs.AI · 10 ч назад

Обнаружение вредоносных навыков агентов в реальных условиях с использованием механизма внимания

Авторы представляют Locate-and-Judge — двухэтапный детектор, предназначенный для выявления вредоносных навыков на маркетплейсах LLM-агентов, где традиционные защиты от инъекций промптов не работают.