Все статьи — korshunov.ai

Все статьи Страница 1 / 123

Сегментация BEV с открытым словарем на основе 3D-геометрических ограничений

Авторы представляют OVBEVSeg, фреймворк для сегментации вида сверху (BEV) с открытым словарем, который использует модели «зрение-язык» для распознавания категорий за пределами обучающего набора, сохраняя при этом эффективность в реальном времени. Чтобы устранить 3D-геометрическую несогласованность, присущую подъему 2D-семантики в BEV, метод применяет надежные 3D-геометрические ограничения на трех прогрессивных этапах.

arxiv arXiv cs.LG · 6 ч назад

PHANTOM: крупномасштабный набор данных мультимодальных состязательных атак для моделей зрения и языка

Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.

arxiv arXiv cs.LG · 6 ч назад

Параллельное управление многообразием: эффективная адаптация больших ассоциативных памяти через формирование остаточной энергии

Авторы предлагают H-Res (Иерархическое остаточное управление), механизм, который адаптирует большие модели Transformer, модулируя их эффективный энергетический ландшафт без изменения глобального равновесия или увеличения длины последовательности. Этот подход формулирует адаптацию как задачу управления на многообразии активаций для направления траекторий токенов в специфичные для задачи области притяжения.

arxiv arXiv cs.LG · 6 ч назад

RE4: Преобразование с учётом трансформаций в имитации взаимодействий объектов с использованием режимов манипуляции

В данной статье представлен RE4 — фреймворк для обучения с подражанием, который объединяет обоснованные теории манипуляции с современными бенчмарками для сохранения как производительности, так и интерпретируемости в задачах взаимодействия с объектами. Подход использует лёгкую самонадзорную оценку позы и преобразования с учётом режимов для эффективного извлечения и перепланирования демонстраций.

media r/LocalLLaMA · 6 ч назад

Представляем LongCat-2.0, крупномасштабную языковую модель MoE

LongCat-2.0 представлена как крупномасштабная языковая модель Mixture of Experts (MoE) с 1,6 триллиона общих параметров и примерно 48 миллиардами активируемых на токен.

arxiv arXiv cs.LG · 7 ч назад

Естественные идентификаторы для аудита конфиденциальности и данных в больших языковых моделях

В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.

arxiv arXiv cs.LG · 7 ч назад

Аугментация данных: взгляд с точки зрения анализа Фурье

В данной статье исследуется, может ли частичная аугментация данных обеспечить те же статистические преимущества, что и полная аугментация, путем разработки_framework_ на основе анализа Фурье и теории представлений конечных групп.

arxiv arXiv cs.LG · 7 ч назад

MedPCFM: Улучшение завершения медицинских точечных облаков путем интеграции Point Transformer и Flow Matching

В данной статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, который интегрирует Point Transformer v3 (PTv3) с генеративным моделированием непрерывного времени. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect для оценки его производительности в задачах анатомической реконструкции.

arxiv arXiv cs.LG · 7 ч назад

Агностическая модель машинного обучения фотосинтетической обитаемости

Исследователи разработали агностическую модель для Фотосинтетической Обитаемой Зоны (PHZ), основанную на термодинамике и окислительно-восстановительной химии, устраняющую земноцентричные предвзятости, присутствовавшие в предыдущих оценках. Оптимизируя универсальную фотохимическую реакцию по спектрам облучения экзопланет с помощью генетического алгоритма, исследование прогнозирует, что жизнеспособность фотосинтеза снижается линейно с увеличением орбитального расстояния, а не квадратично.

arxiv arXiv cs.LG · 7 ч назад

Двухэтапный трансформатор на основе LLM для диагностики неисправностей подшипников

В данной статье предлагается система переноса знаний, состоящая из двух этапов и основанная на знаниях, для решения проблем диагностики неисправностей подшипников, связанных с гетерогенностью наборов данных, изменениями условий эксплуатации и ограниченным количеством размеченных данных. Подход использует легкий трансформатор в стиле GPT-2 с каузальным самовниманием для иерархического извлечения признаков из вибрационных сигналов.

arxiv arXiv cs.LG · 7 ч назад

CrossPool: Эффективная совместная работа нескольких LLM для холодных MoE-моделей за счёт разделения KV-кэша и весов

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.

arxiv arXiv cs.LG · 7 ч назад

Справедливая оценка графовых фундаментальных моделей для предсказания свойств узлов

В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, чтобы устранить отсутствие единых стандартов оценки в этой области. Авторы сравнивают эти модели с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы определить их относительную производительность и эффективность.

arxiv arXiv cs.LG · 7 ч назад

Рассуждение как динамика аттракторов: Извлечение латентной памяти через минимизацию энергии с весами Гиббса

В данной работе большие языковые модели переосмысливаются как высокоразмерные плотные ассоциативные памяти, где корректные рассуждения соответствуют глубоким бассейнам притяжения на энергетическом ландшафте. Авторы предлагают механизм извлечения, который выбирает несколько путей рассуждения и взвешивает их по обратной энергии для аппроксимации распределения равновесия.

arxiv arXiv cs.LG · 7 ч назад

EERLoss: новая функция потерь для обучения глубоких биометрических моделей

В данной статье представлена EERLoss, субдифференцируемое приближение к равной ошибке (EER), предназначенное для согласования процесса обучения глубоких биометрических моделей с основными метриками оценки. Подтверждено на задаче верификации по динамике набора текста с использованием бенчмарка KVC-onGoing; подход решает проблему несоответствия между целями оптимизации и оценкой производительности.

arxiv arXiv cs.LG · 7 ч назад

QC-SMOTE: Контролируемый по качеству SMOTE для несбалансированной классификации

Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.

arxiv arXiv cs.LG · 8 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.

arxiv arXiv cs.AI · 8 ч назад

Кросс-уровневое онтологическое обоснование разрешений, запретов и обязанностей ODRL

В статье формулируется Кросс-уровневый принцип проектирования для решения проблемы того, как оценщики политик ODRL не специфицируют нормативные позиции, структуры власти или полномочия по объявлению о нарушении. Устанавливается, что любой нормативный язык с нарушаемыми нормами требует как позиций уровня поведения (conduct-level), таких как Разрешение и Обязанность, так и позиций уровня компетенции (competence-level), таких как Власть и Иммунитет.

arxiv arXiv cs.AI · 8 ч назад

MVG-KAN: Многовидовой Geo-Wind направленный KAN для прогнозирования PM2.5

Исследователи предлагают MVG-KAN, модель для точного краткосрочного прогнозирования PM2.5, которая устраняет ограничения существующих методов в захвате сложной дисперсии загрязнителей, обусловленной метеорологическими факторами.

arxiv arXiv cs.AI · 8 ч назад

Ускорение деагрегированного RL для визуальных генеративных LLM с помощью диффузионного параллелизма

Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.

arxiv arXiv cs.AI · 8 ч назад

Когда полезность подавляет причинную осторожность: контекстно-зависимое подавление и восстановление в LLM

Исследование показывает, что большие языковые модели систематически подавляют «причинную осторожность» — тенденцию воздерживаться от причинных суждений при отсутствии достаточных доказательств — при переходе от академических к практическим консультационным контекстам. Это подавление происходит несмотря на то, что модели сохраняют базовую способность, что подтверждается возможностью восстановления осторожного рассуждения с помощью специфических промптов.