Представляем LongCat-2.0, крупномасштабную языковую модель MoE
LongCat-2.0 представлена как крупномасштабная языковая модель Mixture of Experts (MoE) с 1,6 триллиона общих параметров и примерно 48 миллиардами активируемых на токен.
LongCat-2.0 представлена как крупномасштабная языковая модель Mixture of Experts (MoE) с 1,6 триллиона общих параметров и примерно 48 миллиардами активируемых на токен.
В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.
В данной статье исследуется, может ли частичная аугментация данных обеспечить те же статистические преимущества, что и полная аугментация, путем разработки_framework_ на основе анализа Фурье и теории представлений конечных групп.
В данной статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, который интегрирует Point Transformer v3 (PTv3) с генеративным моделированием непрерывного времени. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect для оценки его производительности в задачах анатомической реконструкции.
Исследователи разработали агностическую модель для Фотосинтетической Обитаемой Зоны (PHZ), основанную на термодинамике и окислительно-восстановительной химии, устраняющую земноцентричные предвзятости, присутствовавшие в предыдущих оценках. Оптимизируя универсальную фотохимическую реакцию по спектрам облучения экзопланет с помощью генетического алгоритма, исследование прогнозирует, что жизнеспособность фотосинтеза снижается линейно с увеличением орбитального расстояния, а не квадратично.
В данной статье предлагается система переноса знаний, состоящая из двух этапов и основанная на знаниях, для решения проблем диагностики неисправностей подшипников, связанных с гетерогенностью наборов данных, изменениями условий эксплуатации и ограниченным количеством размеченных данных. Подход использует легкий трансформатор в стиле GPT-2 с каузальным самовниманием для иерархического извлечения признаков из вибрационных сигналов.
CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который устраняет неэффективность использования памяти GPU путём разделения весов FFN и KV-кэша на отдельные пулы. Такое разделение позволяет системе консолидировать статические веса и динамически выделять ресурсы под активный спрос на KV-кэш, преодолевая ограничения монолитного распределения памяти.
В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, чтобы устранить отсутствие единых стандартов оценки в этой области. Авторы сравнивают эти модели с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы определить их относительную производительность и эффективность.
В данной работе большие языковые модели переосмысливаются как высокоразмерные плотные ассоциативные памяти, где корректные рассуждения соответствуют глубоким бассейнам притяжения на энергетическом ландшафте. Авторы предлагают механизм извлечения, который выбирает несколько путей рассуждения и взвешивает их по обратной энергии для аппроксимации распределения равновесия.
В данной статье представлена EERLoss, субдифференцируемое приближение к равной ошибке (EER), предназначенное для согласования процесса обучения глубоких биометрических моделей с основными метриками оценки. Подтверждено на задаче верификации по динамике набора текста с использованием бенчмарка KVC-onGoing; подход решает проблему несоответствия между целями оптимизации и оценкой производительности.
Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.
В данной статье представлен ASALT — метод, обеспечивающий латеральное обучение с переносом в многоагентном обучении с подкреплением за счёт учёта несоответствия размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что способствует эффективному переносу знаний между гетерогенными средами.
В статье формулируется Кросс-уровневый принцип проектирования для решения проблемы того, как оценщики политик ODRL не специфицируют нормативные позиции, структуры власти или полномочия по объявлению о нарушении. Устанавливается, что любой нормативный язык с нарушаемыми нормами требует как позиций уровня поведения (conduct-level), таких как Разрешение и Обязанность, так и позиций уровня компетенции (competence-level), таких как Власть и Иммунитет.
Исследователи предлагают MVG-KAN, модель для точного краткосрочного прогнозирования PM2.5, которая устраняет ограничения существующих методов в захвате сложной дисперсии загрязнителей, обусловленной метеорологическими факторами.
Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.
Исследование показывает, что большие языковые модели систематически подавляют «причинную осторожность» — тенденцию воздерживаться от причинных суждений при отсутствии достаточных доказательств — при переходе от академических к практическим консультационным контекстам. Это подавление происходит несмотря на то, что модели сохраняют базовую способность, что подтверждается возможностью восстановления осторожного рассуждения с помощью специфических промптов.
В статье представлены структурные сети Колмогорова-Арнольда (KAN), которые помещают обучаемые функции в структуру свёртки, а не в отдельные элементы ядра, организуя дизайн в зависимости от того, действует ли функция на значения пикселей или на форму фильтра. Представлены три реализации: SV-KAN с общей функцией значений, AG-KAN с гауссовским гейтом, адаптируемым к содержимому, и RF-KAN, который строит фильтры из ориентированных гребневых профилей в базисе вейвлетов Морле.
В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.
Исследователи предлагают циклически согласованную нейронную архитектуру, которая генерирует достоверные естественные языковые объяснения для сертификатов формальной верификации, устраняя непрозрачность этих проверяемых машиной доказательств для неспециалистов. Система достигает 90,0% циклически проверенной корректности на тестовых данных из домена финансового комплаенса, значительно превосходя много-LLM базовые модели как по точности, так и по скорости вывода.
Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.