Все статьи
arxiv arXiv cs.LG · 7 ч назад

CrossPool: Эффективная совместная работа нескольких LLM для холодных MoE-моделей за счёт разделения KV-кэша и весов

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.

arxiv arXiv cs.LG · 7 ч назад

Справедливая оценка графовых фундаментальных моделей для предсказания свойств узлов

В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, чтобы устранить отсутствие единых стандартов оценки в этой области. Авторы сравнивают эти модели с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы определить их относительную производительность и эффективность.

arxiv arXiv cs.LG · 7 ч назад

Рассуждение как динамика аттракторов: Извлечение латентной памяти через минимизацию энергии с весами Гиббса

В данной работе большие языковые модели переосмысливаются как высокоразмерные плотные ассоциативные памяти, где корректные рассуждения соответствуют глубоким бассейнам притяжения на энергетическом ландшафте. Авторы предлагают механизм извлечения, который выбирает несколько путей рассуждения и взвешивает их по обратной энергии для аппроксимации распределения равновесия.

arxiv arXiv cs.LG · 7 ч назад

EERLoss: новая функция потерь для обучения глубоких биометрических моделей

В данной статье представлена EERLoss, субдифференцируемое приближение к равной ошибке (EER), предназначенное для согласования процесса обучения глубоких биометрических моделей с основными метриками оценки. Подтверждено на задаче верификации по динамике набора текста с использованием бенчмарка KVC-onGoing; подход решает проблему несоответствия между целями оптимизации и оценкой производительности.

arxiv arXiv cs.LG · 7 ч назад

QC-SMOTE: Контролируемый по качеству SMOTE для несбалансированной классификации

Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.

arxiv arXiv cs.LG · 8 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.

arxiv arXiv cs.AI · 8 ч назад

Кросс-уровневое онтологическое обоснование разрешений, запретов и обязанностей ODRL

В статье формулируется Кросс-уровневый принцип проектирования для решения проблемы того, как оценщики политик ODRL не специфицируют нормативные позиции, структуры власти или полномочия по объявлению о нарушении. Устанавливается, что любой нормативный язык с нарушаемыми нормами требует как позиций уровня поведения (conduct-level), таких как Разрешение и Обязанность, так и позиций уровня компетенции (competence-level), таких как Власть и Иммунитет.

arxiv arXiv cs.AI · 8 ч назад

MVG-KAN: Многовидовой Geo-Wind направленный KAN для прогнозирования PM2.5

Исследователи предлагают MVG-KAN, модель для точного краткосрочного прогнозирования PM2.5, которая устраняет ограничения существующих методов в захвате сложной дисперсии загрязнителей, обусловленной метеорологическими факторами.

arxiv arXiv cs.AI · 8 ч назад

Ускорение деагрегированного RL для визуальных генеративных LLM с помощью диффузионного параллелизма

Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.

arxiv arXiv cs.AI · 8 ч назад

Когда полезность подавляет причинную осторожность: контекстно-зависимое подавление и восстановление в LLM

Исследование показывает, что большие языковые модели систематически подавляют «причинную осторожность» — тенденцию воздерживаться от причинных суждений при отсутствии достаточных доказательств — при переходе от академических к практическим консультационным контекстам. Это подавление происходит несмотря на то, что модели сохраняют базовую способность, что подтверждается возможностью восстановления осторожного рассуждения с помощью специфических промптов.

arxiv arXiv cs.AI · 8 ч назад

Структурные свёртки Колмогорова-Арнольда: обучаемая функция на значениях или форме фильтра

В статье представлены структурные сети Колмогорова-Арнольда (KAN), которые помещают обучаемые функции в структуру свёртки, а не в отдельные элементы ядра, организуя дизайн в зависимости от того, действует ли функция на значения пикселей или на форму фильтра. Представлены три реализации: SV-KAN с общей функцией значений, AG-KAN с гауссовским гейтом, адаптируемым к содержимому, и RF-KAN, который строит фильтры из ориентированных гребневых профилей в базисе вейвлетов Морле.

arxiv arXiv cs.AI · 8 ч назад

О стабильности ранжирования промптов при оценке больших языковых моделей

В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.

arxiv arXiv cs.AI · 8 ч назад

Циклически согласованное нейронное объяснение сертификатов формальной верификации

Исследователи предлагают циклически согласованную нейронную архитектуру, которая генерирует достоверные естественные языковые объяснения для сертификатов формальной верификации, устраняя непрозрачность этих проверяемых машиной доказательств для неспециалистов. Система достигает 90,0% циклически проверенной корректности на тестовых данных из домена финансового комплаенса, значительно превосходя много-LLM базовые модели как по точности, так и по скорости вывода.

media r/LocalLLaMA · 8 ч назад

Ornith 35B работает достаточно хорошо с Qwen3.6 35B DFlash в режиме спекулятивного моделирования

Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.

arxiv arXiv cs.AI · 9 ч назад

PHANTOM: Крупномасштабный набор данных мультимодальных атак противника для моделей зрения и языка

Исследователи представили PHANTOM, крупномасштабный набор данных с открытым исходным кодом, содержащий 47 524 предварительно сгенерированных атак противника, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс консолидирует и расширяет предыдущие бенчмарки, охватывая 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, стремясь снизить вычислительные барьеры для исследований в области атак противника.

arxiv arXiv cs.AI · 9 ч назад

Female-RHINO: Система для автоматизированного анализа МРТ матки с интеграцией в сканер в реальном времени

В данной статье представлена Female-RHINO — система в реальном времени, использующая ИИ и интегрирующаяся с МРТ-сканерами для проведения автоматизированного количественного анализа матки и структурированной отчетности во время получения изображений. Система объединяет модели глубокого обучения для сегментации и обнаружения ориентиров, чтобы извлекать биомаркеры из сагиттальных T2-взвешенных МРТ-изображений малого таза без ручного вмешательства.

arxiv arXiv cs.AI · 9 ч назад

Эра LLM: Стратегический бенчмарк 1v1 для рассуждений, дипломатии и надёжности

Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.

arxiv arXiv cs.AI · 9 ч назад

ATRIA: Адаптивная прослеживаемая генерация отчетов ЭКГ с использованием итеративных агентов

В статье представлена ATRIA — многоагентная система для формирования отчетов по ЭКГ, которая устраняет ограничения существующих моделей «от конца к концу» и однопроходных агентов за счет имитации итеративного рабочего процесса клинициста.

arxiv arXiv cs.AI · 9 ч назад

Средние ранговые маски субъективной оптимальности: бенчмарк Фридмана-Немени для декодеров БКИ моторной визуализации ЭЭГ

В данном исследовании оценивается, доминирует ли какой-либо один конвейер декодирования среди субъектов в интерфейсах мозг-компьютер на основе моторной визуализации путем тестирования 1056 конфигураций на трех публичных наборах данных с использованием строгих статистических бенчмарков.

arxiv arXiv cs.AI · 9 ч назад

Разрешение сущностей через пакетные запросы к оракулу

В данной статье рассматривается проблема разрешения сущностей в больших наборах данных с использованием оракула, который группирует записи ограниченными пакетами, стремясь к модели оплаты по факту использования для контроля затрат при максимизации полноты.