Лаборатория · Hugging Face
media Hugging Face Forums · 2 д назад

Система Buddy: монитор нестабильности на языке Rust с контролем неопределенности на основе NER для многоуровневой инференции LLM

Система Buddy использует монитор нестабильности на языке Rust для обнаружения неопределенности на уровне каждого токена при локальной инференции Gemma 3 4B, направляя только неопределенные токены в Sonnet через NER-ограниченную извлечение спанов и семантическое извлечение. Результаты тестирования показывают, что она достигает точности 71,4% при стоимости $0,21, превосходя паттерн Anthropic Advisor (62,9% при стоимости $0,44) на семи наборах данных Hugging Face, с ключевым улучшением на SQuAD v2 за счет направления фрагментов исходного текста в облачную модель.

arxiv arXiv cs.CL · 2 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.CL · 6 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.AI · 9 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

arxiv arXiv cs.CL · 2 д назад

PhoneBuddy: Обучение открытых моделей для агентного использования телефона

PhoneBuddy объединяет реальные и имитационные среды приложений для обучения открытых моделей для использования телефона. Он повышает показатели успешного выполнения задач с 36,67% до 45,33% на реальных телефонах и с 60,3% до 83,2% на AndroidWorld, что показывает, что обучение в имитационной среде дополняет, но не заменяет обучение в реальных приложениях на основе релей-обучения.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.

arxiv arXiv cs.CL · 2 д назад

Tmax: Простая рецептура RL для агентов-конечных

Tmax представляет наиболее сильную открытую рецептуру для агентов-конечных, достигая 27% на Terminal-Bench 2.0 с использованием только 9B параметров. Он использует новую классификацию данных для генерации более чем на 2,5 раза больше окончательных сред, что позволяет эффективно обучать с простой рецептурой, ориентированной только на результат. Данные, модели и код доступны на GitHub по адресу https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · 2 д назад

Оценка осознания является многомерной, а не однородным свойством

Открытые языковые модели показывают, что осознание оценки не является единым свойством. Восьмые эксперименты по 37 моделям показывают, что обнаружение, изменения поведения в области безопасности и стабильность представления варьируются независимо, причем между ними наблюдается лишь слабая корреляция. Это ослабляет идею о том, что один показатель осознания может быть надежным индикатором безопасности при развертывании, подчеркивая «обман бенчмарков».

media r/LocalLLaMA · 2 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.