Все статьи — korshunov.ai

Все статьи Страница 1 / 123

Представляем LongCat-2.0, крупномасштабную языковую модель MoE

LongCat-2.0 представлена как крупномасштабная языковая модель Mixture of Experts (MoE) с 1,6 триллиона общих параметров и примерно 48 миллиардами активируемых на токен.

arxiv arXiv cs.LG · 8 ч назад

Естественные идентификаторы для аудита конфиденциальности и данных в больших языковых моделях

В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.

arxiv arXiv cs.LG · 8 ч назад

Аугментация данных: взгляд с точки зрения анализа Фурье

В данной статье исследуется, может ли частичная аугментация данных обеспечить те же статистические преимущества, что и полная аугментация, путем разработки_framework_ на основе анализа Фурье и теории представлений конечных групп.

arxiv arXiv cs.LG · 8 ч назад

MedPCFM: Улучшение завершения медицинских точечных облаков путем интеграции Point Transformer и Flow Matching

В данной статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, который интегрирует Point Transformer v3 (PTv3) с генеративным моделированием непрерывного времени. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect для оценки его производительности в задачах анатомической реконструкции.

arxiv arXiv cs.LG · 8 ч назад

Агностическая модель машинного обучения фотосинтетической обитаемости

Исследователи разработали агностическую модель для Фотосинтетической Обитаемой Зоны (PHZ), основанную на термодинамике и окислительно-восстановительной химии, устраняющую земноцентричные предвзятости, присутствовавшие в предыдущих оценках. Оптимизируя универсальную фотохимическую реакцию по спектрам облучения экзопланет с помощью генетического алгоритма, исследование прогнозирует, что жизнеспособность фотосинтеза снижается линейно с увеличением орбитального расстояния, а не квадратично.

arxiv arXiv cs.LG · 8 ч назад

Двухэтапный трансформатор на основе LLM для диагностики неисправностей подшипников

В данной статье предлагается система переноса знаний, состоящая из двух этапов и основанная на знаниях, для решения проблем диагностики неисправностей подшипников, связанных с гетерогенностью наборов данных, изменениями условий эксплуатации и ограниченным количеством размеченных данных. Подход использует легкий трансформатор в стиле GPT-2 с каузальным самовниманием для иерархического извлечения признаков из вибрационных сигналов.

arxiv arXiv cs.LG · 8 ч назад

CrossPool: Эффективная совместная работа нескольких LLM для холодных MoE-моделей за счёт разделения KV-кэша и весов

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.

arxiv arXiv cs.LG · 8 ч назад

Справедливая оценка графовых фундаментальных моделей для предсказания свойств узлов

В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, чтобы устранить отсутствие единых стандартов оценки в этой области. Авторы сравнивают эти модели с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы определить их относительную производительность и эффективность.

arxiv arXiv cs.LG · 8 ч назад

Рассуждение как динамика аттракторов: Извлечение латентной памяти через минимизацию энергии с весами Гиббса

В данной работе большие языковые модели переосмысливаются как высокоразмерные плотные ассоциативные памяти, где корректные рассуждения соответствуют глубоким бассейнам притяжения на энергетическом ландшафте. Авторы предлагают механизм извлечения, который выбирает несколько путей рассуждения и взвешивает их по обратной энергии для аппроксимации распределения равновесия.

arxiv arXiv cs.LG · 8 ч назад

EERLoss: новая функция потерь для обучения глубоких биометрических моделей

В данной статье представлена EERLoss, субдифференцируемое приближение к равной ошибке (EER), предназначенное для согласования процесса обучения глубоких биометрических моделей с основными метриками оценки. Подтверждено на задаче верификации по динамике набора текста с использованием бенчмарка KVC-onGoing; подход решает проблему несоответствия между целями оптимизации и оценкой производительности.

arxiv arXiv cs.LG · 8 ч назад

QC-SMOTE: Контролируемый по качеству SMOTE для несбалансированной классификации

Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.

arxiv arXiv cs.LG · 9 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.

arxiv arXiv cs.AI · 9 ч назад

Кросс-уровневое онтологическое обоснование разрешений, запретов и обязанностей ODRL

В статье формулируется Кросс-уровневый принцип проектирования для решения проблемы того, как оценщики политик ODRL не специфицируют нормативные позиции, структуры власти или полномочия по объявлению о нарушении. Устанавливается, что любой нормативный язык с нарушаемыми нормами требует как позиций уровня поведения (conduct-level), таких как Разрешение и Обязанность, так и позиций уровня компетенции (competence-level), таких как Власть и Иммунитет.

arxiv arXiv cs.AI · 9 ч назад

MVG-KAN: Многовидовой Geo-Wind направленный KAN для прогнозирования PM2.5

Исследователи предлагают MVG-KAN, модель для точного краткосрочного прогнозирования PM2.5, которая устраняет ограничения существующих методов в захвате сложной дисперсии загрязнителей, обусловленной метеорологическими факторами.

arxiv arXiv cs.AI · 9 ч назад

Ускорение деагрегированного RL для визуальных генеративных LLM с помощью диффузионного параллелизма

Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.

arxiv arXiv cs.AI · 9 ч назад

Когда полезность подавляет причинную осторожность: контекстно-зависимое подавление и восстановление в LLM

Исследование показывает, что большие языковые модели систематически подавляют «причинную осторожность» — тенденцию воздерживаться от причинных суждений при отсутствии достаточных доказательств — при переходе от академических к практическим консультационным контекстам. Это подавление происходит несмотря на то, что модели сохраняют базовую способность, что подтверждается возможностью восстановления осторожного рассуждения с помощью специфических промптов.

arxiv arXiv cs.AI · 9 ч назад

Структурные свёртки Колмогорова-Арнольда: обучаемая функция на значениях или форме фильтра

В статье представлены структурные сети Колмогорова-Арнольда (KAN), которые помещают обучаемые функции в структуру свёртки, а не в отдельные элементы ядра, организуя дизайн в зависимости от того, действует ли функция на значения пикселей или на форму фильтра. Представлены три реализации: SV-KAN с общей функцией значений, AG-KAN с гауссовским гейтом, адаптируемым к содержимому, и RF-KAN, который строит фильтры из ориентированных гребневых профилей в базисе вейвлетов Морле.

arxiv arXiv cs.AI · 9 ч назад

О стабильности ранжирования промптов при оценке больших языковых моделей

В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.

arxiv arXiv cs.AI · 9 ч назад

Циклически согласованное нейронное объяснение сертификатов формальной верификации

Исследователи предлагают циклически согласованную нейронную архитектуру, которая генерирует достоверные естественные языковые объяснения для сертификатов формальной верификации, устраняя непрозрачность этих проверяемых машиной доказательств для неспециалистов. Система достигает 90,0% циклически проверенной корректности на тестовых данных из домена финансового комплаенса, значительно превосходя много-LLM базовые модели как по точности, так и по скорости вывода.

media r/LocalLLaMA · 9 ч назад

Ornith 35B работает достаточно хорошо с Qwen3.6 35B DFlash в режиме спекулятивного моделирования

Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.