Лаборатория · Hugging Face
arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.AI · 9 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

media r/LocalLLaMA · 7 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

arxiv arXiv cs.LG · 7 д назад

Act2Answer оценивает сохранение знаний в моделях визуально-языковых-действий

Act2Answer вводит лёгкий протокол для оценки сохранения общеупотребимых и мировых знаний в моделях визуально-языковых-действий (VLA), требуя от агентов отвечать на вопросы через действия размещения объектов. Большой масштабный анализ 7 моделей VLA и 9 базовых моделей VLM показывает, что VLAs хорошо справляются с простыми концепциями, но демонстрируют большие разрывы в богатых семантических категориях по сравнению с их исходными моделями VLM, при этом обучение с помощью VQA улучшает сохранение знаний, а наиболее яркие сигналы, связанные с правильным ответом, наблюдаются в средних слоях VLA.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.CL · 7 д назад

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.

arxiv arXiv cs.CL · 7 д назад

SAGE: Случайная оптимизация промптов с помощью экспериментального руководства агентов

SAGE — это многоагентная система для оптимизации промптов, которая объединяет выполнение диагностического кода и количественную проверку. Она повышает удержание чат-ботов по вопросам психического здоровья, объединяя восемь циклов шумных A/B-тестов в статистически значимые результаты, демонстрируя эффективность в задачах открытого диалога за счёт интеграции качественной и количественной обратной связи.

arxiv arXiv cs.AI · 7 д назад

CAPRA: Многоагентная система LLM для обратной связи по архитектуре программного обеспечения

CAPRA — это многоагентная система LLM, которая генерирует персонализированную, шаблонную обратную связь на LaTeX по доставляемым архитектурным материалам. Она использует специализированные агенты, PyMuPDF и gpt-4o для извлечения и анализа текста и диаграмм UML, при этом обеспечивается надежность за счёт фиксации доказательств и управления согласованностью. Предварительная оценка 10 отчётов студентов показала, что CAPRA выполнил 88,8% из восьми критериев и достиг среднего уровня согласия между оценщиками (kappa = 0,582), при этом каждый отчёт обрабатывался менее чем за 4 минуты.

arxiv arXiv cs.AI · 7 д назад

ProductConsistency: Улучшение идентичности продукта в редактировании изображений

Датасет ProductConsistency вводит 87k образцов SFT и 869 образцов RL для улучшения сохранения идентичности продукта при редактировании изображений. В нём включён бенчмарк для стандартизированной оценки и используется циклическая согласованность вознаграждения для обеспечения семантической идентичности продукта через сходство описаний. Тонкая настройка Qwen-Image-Edit-2511 и Flux.1-Kontext-dev показывает снижение ошибки в 5 раз и улучшение отображения текста и визуальной качества.

arxiv arXiv cs.AI · 7 д назад

Техническая классификация протоколов коммуникации агентов на основе ЛЛМ

Новая классификация классифицирует протоколы коммуникации агентов на основе ЛЛМ по пяти измерениям: сопряжённый субъект, нагрузка, состояние взаимодействия, механизм обнаружения и гибкость схемы. Анализ показывает, что гибридные нагрузки, сохранение состояния сессии и переговоры о схеме во время выполнения являются распространенными, в то время как децентрализованное обнаружение остаётся редким. Исследование прогнозирует краткосрочную тенденцию к унификации протоколов агент-к-агенту и агент-к-контексту, и долгосрочное развитие в сторону распределённой, многоуровневой стека протоколов.

media r/LocalLLaMA · 8 д назад

Я выпустил Inflect-Nano, экстремально маленький модель TTS с 4,63 млн параметров

Модель Inflect-Nano-v1 является второй по размеру публично доступной моделью TTS после TinyTTS, с общим количеством 4,63 млн параметров. Она показывает удивительно хорошие результаты при таком размере, работает локально на устройствах с низкой производительностью и служит базой для небольших систем синтеза речи в встраиваемых или оффлайн-приложениях.

media r/LocalLLaMA · 8 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

arxiv arXiv cs.LG · 8 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель Transformer для циклов, демонстрирует превосходную производительность по генерации кода и логическому мышлению при двух циклах, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, что указывает на немонотонный эффект количества циклов из-за роста позиционных несоответствий и уменьшения возвратов.

arxiv arXiv cs.AI · 8 д назад

Кадровая ИИ-архитектура снижает ошибки диагностики в здравоохранении

Мультиагентная ИИ-архитектура решает проблему преждевременного передачи диагностики и тихих галлюцинаций в здравоохранении за счет обеспечения структурированного выполнения клинических протоколов и квантификации эпистемической неопределенности. Оценки на 150 симулированных случаях показывают точность диагностики в 49,3%, что на 11,3 процентных пункта превышает базовую величину, при этом наблюдается статистически значимая отрицательная корреляция между полнотой OLDCARTS и диагностической неопределенностью.

arxiv arXiv cs.AI · 8 д назад

EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий

EAGG представляет генератор захвата, который выравнивает структуру корпуса в общем модели с использованием топологически осознанных графов и геометрически осознанных токенов. Он достигает среднего успеха захвата в 56,17% на MultiGripperGrasp, что соответствует специализированным моделям с погрешностью в 1,10 процентных пунктах, и снижает медианное расстояние контакта с 0,239 см до 0,189 см.

arxiv arXiv cs.CL · 8 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.AI · 9 д назад

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

CircuitLasso предлагает масштабируемый метод обучения разреженных схем в больших языковых моделях с использованием разреженной линейной регрессии. Он достигает структурной точности, сравнимой с методами, основанными на вмешательстве, при значительно меньших вычислительных затратах, одновременно обеспечивая эффективное обнаружение распространения семантических признаков и улучшая производительность на задачах обобщения в области с уменьшенными затратами.