Лаборатория · Hugging Face
github llama.cpp · 8 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

media Hugging Face Forums · 2 д назад

Система Buddy: монитор нестабильности на языке Rust с контролем неопределенности на основе NER для многоуровневой инференции LLM

Система Buddy использует монитор нестабильности на языке Rust для обнаружения неопределенности на уровне каждого токена при локальной инференции Gemma 3 4B, направляя только неопределенные токены в Sonnet через NER-ограниченную извлечение спанов и семантическое извлечение. Результаты тестирования показывают, что она достигает точности 71,4% при стоимости $0,21, превосходя паттерн Anthropic Advisor (62,9% при стоимости $0,44) на семи наборах данных Hugging Face, с ключевым улучшением на SQuAD v2 за счет направления фрагментов исходного текста в облачную модель.

arxiv arXiv cs.CL · 2 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.CL · 6 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.AI · 9 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

github llama.cpp · 1 ч назад Live

Выпуск llama.cpp b9786 добавляет поддержку неконгруэнтных строк через OpenCL

Проект llama.cpp выпустил версию b9786, добавившую поддержку неконгруэнтных строк в нормализации через OpenCL. Это обновление является частью текущей разработки команды ggml-org по улучшению аппаратной совместимости и производительности на различных платформах. В релизе предоставлены бинарные файлы для macOS Apple Silicon, Intel Mac и iOS XCFrameworks. Пользователи Linux могут получить сборки для архитектур Ubuntu x64, arm64 и s390x с использованием CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов. Поддержка Android доступна для устройств на базе CPU arm64, а Windows предлагает обширный выбор вариантов, включая CPU, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релизе также перечислены отключенные сборки для KleidiAI на платформах macOS и openEuler.

media Hugging Face Forums · 6 ч назад

Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU

Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.

arxiv arXiv cs.CL · 22 ч назад

Готовы ли мы к агентно-ориентированной системе памяти?

Новое исследование разбивает память агента на четыре основных модуля и оценивает 12 систем по пяти бенчмаркам. Оно показывает, что ни одна архитектура не доминирует, производительность зависит от соответствия с узкими местами в задачах, и выявляет, что локальная поддержка более экономична, чем глобальная перестройка.

arxiv arXiv cs.AI · 1 д назад

Эмпирическое исследование квантования OpenPangu на NPUs Ascend

Управляемое исследование оценивает модели OpenPangu 1B и 7B на NPUs Huawei Ascend 910B1 с использованием методов квантования только весов и весов-активации. Результаты показывают, что квантование только весов на 8 бит является без потерь для обеих моделей, в то время как квантование на 4 бита является практическим для модели 7B, но вредным для модели 1B при выполнении задач по логике, математике и программированию. Методы экстремально низкой точности, такие как 2 бита и бинарные, не срабатывают, и W4A4 SmoothQuant приводит к неопределённому перплексити, что указывает на сложность экстремального сжатия на низких битах.

media Hugging Face Forums · 1 д назад

Информация о поставщике инференса устарела?

Страница Hugging Face для модели Llama 3.1 405B перечисляет Featherless AI как поставщика, но тестовый веб-компонент показывает 'Не удалось получить данные' и на сайте featherless.ai модель не указана как доступная. Аналогичная проблема отмечена для модели Baidu ERNIE-4.5-300B.