Запуск сервера vLLM на HF Jobs одной командой
Hugging Face представил новую функцию, позволяющую пользователям разворачивать серверы vLLM непосредственно через платформу Hugging Face Jobs с помощью одной команды.
Hugging Face представил новую функцию, позволяющую пользователям разворачивать серверы vLLM непосредственно через платформу Hugging Face Jobs с помощью одной команды.
Этот кандидат в релизы устраняет проблему с функциональностью Prefill/Decode (P/D) совместно с Data Parallelism (DP) Supervisor в проекте vLLM.
AutoDex — это автоматизированная система, предназначенная для замыкания цикла сбора данных о ловком захвате в реальном мире путем обработки восприятия, выполнения, маркировки и сброса без вмешательства человека. Она решает проблемы масштабируемости телеоперации и отсутствия физической сертификации в симуляции, генерируя кандидаты на захват и проверяя их на реальном оборудовании.
В данном исследовании предлагается унифицированная жёстко-мягкая физически обусловленная нейронная сеть (HSPINN) с адаптивным взвешиванием потерь для решения проблем медленной сходимости и неточного выполнения граничных условий в традиционных PINN. Фреймворк обеспечивает точное выполнение граничных условий Дирихле и периодических граничных условий посредством аналитического подъёма или маскирования, тогда как невязки УЧП и начальные условия рассматриваются как мягкие ограничения, балансируемые с помощью стратегии обратного софтмакса.
В статье представлен ChemGuard, операционный протокол, формализующий упускаемый из виду этап допуска в конвейерах обучения на молекулах за счёт требования санитизируемых строк и согласованной реконструкции графа. Эта рамка показывает, что многие существующие графовые бэкдоры теряют эффективность, поскольку их яды химически некорректны или несогласованы с представлением.
В данной статье рассматривается проблема пере-выравнивания больших языковых моделей, используемых в контексте уголовного права Швейцарского федерального верховного суда, где защитные механизмы модели часто вызывают отказы при обработке конфиденциальных деталей дел. Авторы представляют TF-RefusalBench — многоязычный бенчмарк, созданный на основе публичных судебных решений, для измерения этого явления на французском, немецком, итальянском и английском языках.
В данном исследовании представлены трансформеры на основе энергии в качестве новой меры для прогнозирования сложности чтения человеком, устанавливающей формальную связь между моделями трансформеров и литературой по ассоциативной памяти, такой как сети Хопфилда.
Авторы предлагают Diffusion-LLM, фреймворк, который интегрирует условную диффузионную модель в конвейер на основе LLM для решения задач прогнозирования мультимодальных временных рядов. Такое совместное проектирование позволяет обучаться будущим распределениям данных, одновременно улучшая семантическое выравнивание в общем латентном пространстве.
Разработчик выпустил бесплатный и простой API для Retrieval-Augmented Generation (RAG), основанный на статьях медицинской Википедии, чтобы обеспечить локальным большим языковым моделям точную фактическую информацию. Сервис ориентирован на время ответа менее секунды и в настоящее время работает на одном ARM VPS, используя около 2 ГБ оперативной памяти.
Пользователь на Reddit спрашивает, раскрыла ли Nvidia сроки поддержки операционной системы, работающей на оборудовании DGX Spark. Запрос касается в частности продолжительности поддержки ОС и того, не будут ли пользователи вынуждены в ближайшем будущем, например к 2028 году, переходить на новые продукты.
В данной статье представлен фреймворк с участием человека для автоматического выявления и исправления семантических ошибок в моделях SysML v2, которые не могут быть обнаружены компиляторами. Подход объединяет дообученные малые языковые модели (Small Language Models) с графом предметных знаний, чтобы обосновать предложения по исправлению в рамках корректных инженерных ограничений.
Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.
Появление больших моделей рассуждений привело к формированию исключительно длинных трасс цепочки рассуждений (Chain-of-Thought), что создало проблему прозрачности, при которой критическая логика часто теряется в массивах процедурного текста. Для решения этой проблемы авторы представляют ReasoningLens — фреймворк с открытым исходным кодом, предназначенный для иерархической визуализации и диагностического аудита сложных цепочек рассуждений.
HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.
UnBias-Plus — это набор инструментов с открытым исходным кодом, предназначенный для решения проблемы устойчивого смещения в естественном языке путем объединения возможностей обнаружения, объяснения и нейтрального перефразирования.
Авторы представляют Locate-and-Judge — двухэтапный детектор, предназначенный для выявления вредоносных навыков на маркетплейсах LLM-агентов, где традиционные защиты от инъекций промптов не работают.
В данной статье рассматриваются концепции цифрового гуманизма и эволюционного дизайна с целью выявления их общих структур, синергии и вызовов в контексте технологического развития, ориентированного на человека.
Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.
В статье представлен STAITUS — унифицированная рамка для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих методов, основанных на слотах, за счёт явного разделения внешнего вида и геометрической позы. Такой подход разрешает конфликты между временной согласованностью и движением объекта, предотвращая фиксацию слотов на статичном фоне.
В данном исследовании предлагается адаптивная мягкая архитектура Смеси Экспертов (MoE), которая объединяет EfficientNet-B0, DenseNet-121 и Swin-Tiny для решения задач классификации болезней листьев растений в условиях сложных фонов и дисбаланса классов.