Все статьи
arxiv arXiv cs.AI · 18 ч назад

Измерение и смягчение эффекта пере-выравнивания для больших языковых моделей в многоязычных уголовных судах

В данной статье рассматривается проблема пере-выравнивания больших языковых моделей, используемых в контексте уголовного права Швейцарского федерального верховного суда, где защитные механизмы модели часто вызывают отказы при обработке конфиденциальных деталей дел. Авторы представляют TF-RefusalBench — многоязычный бенчмарк, созданный на основе публичных судебных решений, для измерения этого явления на французском, немецком, итальянском и английском языках.

arxiv arXiv cs.AI · 18 ч назад

Трансформеры на основе энергии как предикторы сложности чтения

В данном исследовании представлены трансформеры на основе энергии в качестве новой меры для прогнозирования сложности чтения человеком, устанавливающей формальную связь между моделями трансформеров и литературой по ассоциативной памяти, такой как сети Хопфилда.

arxiv arXiv cs.AI · 18 ч назад

Распределенно-осознанный Diffusion-LLM для устойчивого прогнозирования временных рядов на сверхдлинных горизонтах

Авторы предлагают Diffusion-LLM, фреймворк, который интегрирует условную диффузионную модель в конвейер на основе LLM для решения задач прогнозирования мультимодальных временных рядов. Такое совместное проектирование позволяет обучаться будущим распределениям данных, одновременно улучшая семантическое выравнивание в общем латентном пространстве.

media r/LocalLLaMA · 19 ч назад

Быстрый медицинский RAG-API для предоставления локальным LLM доступа к фактам

Разработчик выпустил бесплатный и простой API для Retrieval-Augmented Generation (RAG), основанный на статьях медицинской Википедии, чтобы обеспечить локальным большим языковым моделям точную фактическую информацию. Сервис ориентирован на время ответа менее секунды и в настоящее время работает на одном ARM VPS, используя около 2 ГБ оперативной памяти.

media r/LocalLLaMA · 19 ч назад

Срок службы ОС DGX Spark?

Пользователь на Reddit спрашивает, раскрыла ли Nvidia сроки поддержки операционной системы, работающей на оборудовании DGX Spark. Запрос касается в частности продолжительности поддержки ОС и того, не будут ли пользователи вынуждены в ближайшем будущем, например к 2028 году, переходить на новые продукты.

arxiv arXiv cs.AI · 19 ч назад

Автоматизированная семантическая локализация ошибок в SysML v2 с использованием LLM, дополненных графом знаний

В данной статье представлен фреймворк с участием человека для автоматического выявления и исправления семантических ошибок в моделях SysML v2, которые не могут быть обнаружены компиляторами. Подход объединяет дообученные малые языковые модели (Small Language Models) с графом предметных знаний, чтобы обосновать предложения по исправлению в рамках корректных инженерных ограничений.

arxiv arXiv cs.AI · 19 ч назад

Litmus: Нулевая разметка, управляемое кодом задание метрик для оценки ИИ-систем

Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.

arxiv arXiv cs.AI · 19 ч назад

ReasoningLens: Иерархическая визуализация и диагностический аудит для больших моделей рассуждений

Появление больших моделей рассуждений привело к формированию исключительно длинных трасс цепочки рассуждений (Chain-of-Thought), что создало проблему прозрачности, при которой критическая логика часто теряется в массивах процедурного текста. Для решения этой проблемы авторы представляют ReasoningLens — фреймворк с открытым исходным кодом, предназначенный для иерархической визуализации и диагностического аудита сложных цепочек рассуждений.

arxiv arXiv cs.AI · 19 ч назад

HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей

HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.

arxiv arXiv cs.AI · 19 ч назад

UnBias-Plus: Обнаружение, объяснение и устранение смещения

UnBias-Plus — это набор инструментов с открытым исходным кодом, предназначенный для решения проблемы устойчивого смещения в естественном языке путем объединения возможностей обнаружения, объяснения и нейтрального перефразирования.

arxiv arXiv cs.AI · 19 ч назад

Обнаружение вредоносных навыков агентов в реальных условиях с использованием механизма внимания

Авторы представляют Locate-and-Judge — двухэтапный детектор, предназначенный для выявления вредоносных навыков на маркетплейсах LLM-агентов, где традиционные защиты от инъекций промптов не работают.

arxiv arXiv cs.AI · 19 ч назад

Цифровой гуманизм и эволюционный дизайн

В данной статье рассматриваются концепции цифрового гуманизма и эволюционного дизайна с целью выявления их общих структур, синергии и вызовов в контексте технологического развития, ориентированного на человека.

arxiv arXiv cs.AI · 19 ч назад

GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.

arxiv arXiv cs.AI · 19 ч назад

STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная рамка для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих методов, основанных на слотах, за счёт явного разделения внешнего вида и геометрической позы. Такой подход разрешает конфликты между временной согласованностью и движением объекта, предотвращая фиксацию слотов на статичном фоне.

arxiv arXiv cs.AI · 20 ч назад

Кросс-архитектурная смесь экспертов с адаптивным мягким маршрутизированием для классификации болезней листьев растений

В данном исследовании предлагается адаптивная мягкая архитектура Смеси Экспертов (MoE), которая объединяет EfficientNet-B0, DenseNet-121 и Swin-Tiny для решения задач классификации болезней листьев растений в условиях сложных фонов и дисбаланса классов.

arxiv arXiv cs.AI · 20 ч назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к модели MolFormer для механистического изучения того, как строятся молекулярные представления на разных слоях, опровергая предположение о том, что химические языковые модели изучают лишь поверхностный синтаксис.

media r/LocalLLaMA · 20 ч назад

LFM2.5 230M работает в браузере со скоростью 1400 токенов/с благодаря пользовательским WebGPU-ядрам

Модель LiquidAI LFM2.5-230M теперь работает локально в браузере с использованием пользовательских WebGPU-ядер. Эти специализированные ядра изначально были разработаны компанией Fable 5 до её закрытия, а также Opus 4.8. Демонстрация была записана на устройстве M4 Max, показав скорость генерации 1400 токенов в секунду. Вся обработка происходит полностью в среде браузера пользователя без внешних серверных зависимостей. Версия модели в формате GGUF доступна для загрузки на Hugging Face вместе со стандартным чекпоинтом. Пользователи могут взаимодействовать с живой демонстрацией, размещённой webml-community на Hugging Face Spaces.

media r/LocalLLaMA · 20 ч назад

Apple пропустит чипы M6 Pro/Max и ускорит выпуск M7 для локального ИИ

Согласно последнему сообщению, Apple планирует пропустить выпуск чипов M6 Pro и M6 Max в своей следующей линейке продуктов. Вместо этого компания намерена ускорить разработку серии чипов M7 для лучшей поддержки локальных задач искусственного интеллекта. Эта стратегическая переориентация указывает на приоритет возможностей ИИ на устройстве над традиционным увеличением производительности для линейки Pro. Решение отражает растущее внимание Apple к интеграции передовых функций машинного обучения непосредственно в архитектуру своего оборудования. Ускорив сроки выхода M7, Apple стремится обеспечить более высокую производительность нейронного движка для запуска больших языковых моделей локально. Этот шаг сигнализирует о значительном сдвиге в дорожной карте разработки Apple Silicon в сторону принципов дизайна, ориентированных на ИИ.

arxiv arXiv cs.AI · 20 ч назад

AOHP: платформа агентов на уровне ОС с открытым исходным кодом для персонализированного, эффективного и безопасного взаимодействия

Проект Android Open Harness Project (AOHP) представляет собой платформу агентов на уровне операционной системы с открытым исходным кодом, созданную на базе проекта Android Open Source Project. Она решает проблему несоответствия между современными операционными системами, ориентированными на приложения, и потребностями автономных ИИ-агентов, рассматривая агентов как полноправных субъектов ОС. В архитектуре предложены три ключевых механизма: персонализированная композиция сервисов, эффективные интерфейсы для агентов и безопасный поток информации. Эти функции обеспечивают адаптивные пользовательские интерфейсы и среду выполнения, удобную для агентов, сохраняя при этом существующую экосистему Android. Предварительные эксперименты на сложных задачах демонстрируют значительное улучшение производительности по сравнению с традиционными системами. В частности, AOHP увеличила долю успешно завершённых задач на 21,12% по сравнению с базовыми методами. Она также снизила затраты на выполнение токенов на 51,55%, что подчёркивает её преимущества в эффективности. Кроме того, система показала улучшенное соответствие политикам безопасности во время взаимодействий, опосредованных агентами.