Все статьи
arxiv arXiv cs.LG · 12 ч назад

Концептуально-ограниченное обучение промптов для адаптации CLIP в условиях малообучающих данных

CCPL представляет легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая адаптацию CLIP в условиях малообучающих данных. Оно достигает лучшего показателя базовой-новой производительности на DTD и EuroSAT по сравнению с CoOp, с постоянными улучшениями за счёт регуляризации в пространстве текста, хотя результаты варьируются в зависимости от датасета и протокола.

arxiv arXiv cs.LG · 12 ч назад

Стационарные устойчивые игры в среднем поле при несоответствии моделей

Эта статья вводит стационарную структуру игр в среднем поле, которая напрямую включает неопределенность распределения моделей в динамике, связанной с популяцией. В ней устанавливается устойчивое динамическое принцип динамического программирования, доказывается существование стационарного устойчивого равновесия и представлен первый алгоритм с гарантиями сходимости. Решение в среднем поле аппроксимирует равновесия конечной популяции и предоставляет явные неасимптотические границы погрешности при неопределенности моделей.

arxiv arXiv cs.LG · 12 ч назад

Классификация задач без обучения для объединения многозадачных моделей

SiM обеспечивает динамическое распределение в объединении многозадачных моделей без дополнительного обучения или доступа к идентификаторам задач. Он использует аппроксимации на многообразии, основанные на SVD, и проецирует тестовые входы на заранее вычисленные многообразия задач, чтобы направлять входы на соответствующих экспертов, повышая производительность и сокращая разрыв до уровня отдельных экспертов.

arxiv arXiv cs.LG · 12 ч назад

Важность-взвешенная на-политическая дистилляция устраняет смещение позиции

На-политическая дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохое обучение. Мы вводим Важность-взвешенную на-политическую дистилляцию (IW-OPD), которая присваивает веса на основе распределения, приоритизируя ранние токены. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025.

arxiv arXiv cs.LG · 12 ч назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.LG · 12 ч назад

Малые языковые модели превосходят передовые крупные языковые модели по извлечению отношений

Финетурированный модель Qwen2.5 с 0,5 миллиарда параметров достигает 0,83 микроФ1 в извлечении отношений в общей области, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах она достигает 0,92 на датасете Биографический, превосходя GPT-5.4 и превосходя передовые модели по точности, демонстрируя, что адаптированные к задаче малые модели могут обеспечивать высокую производительность при минимальных затратах на оборудование и приватность.

media r/LocalLLaMA · 12 ч назад

Я разработал Windows Copilot в виде бесплатной OpenAI-совместимой API

Пользователь создал локальную API, которая имитирует функциональность GPT-4, совместимую с OpenAI, используя бесплатный сервис Microsoft Copilot. Инструмент авторизуется в аккаунте Microsoft один раз, работает локально на устройстве Windows и предоставляет сервер по адресу http://localhost:8000/v1, поддерживающий потоковые и многократные диалоги без необходимости API-ключа или оплаты. Инструмент предназначен для личного и образовательного использования и доступен по ссылке https://github.com/sums001/Windows-Copilot-API.

blog Simon Willison · 13 ч назад

Том Макврайт о случайной анонимности в заявках на работу

Том Макврайт отмечает, что все больше заявок на работу включают содержимое, сгенерированное с помощью языковых моделей, включая портфолио и проекты на GitHub с фальшивыми сообщениями о коммитах. Он отмечает, что такие заявки не раскрывают мало о кандидатах, поскольку они не содержат личной искренности и искреннего самовыражения.

arxiv arXiv cs.AI · 13 ч назад

Геометрия-ориентированный онлайн-расписыватель для обслуживания больших языковых моделей

Новый алгоритм расписывания, Smallest Volume First (SVF), снижает задержку инференса больших языковых моделей за счёт оптимизации управления кэшем ключ-значение. Теоретический анализ показывает, что коэффициент конкуренции в худшем случае сократился с 48 до 5, при этом 1-битный SVF обеспечивает высокую производительность при минимальной информации. Оценки на моделях Llama-3.1 подтверждают улучшения как средней, так и хвостовой задержки, при этом подход был интегрирован в vLLM.

arxiv arXiv cs.AI · 13 ч назад

BabelJudge: Оценка надежности LLM-как-судьи в разных языках и траекториях агента

BabelJudge представляет открытую платформу для измерения четырех ключевых форм предвзятости в LLM-судьях в различных языках и траекториях агентов. Платформа выявляет значительное падение надежности от хинди до саванги — с 0,714 до 0,550 — что подчеркивает деградацию между языками, недоступную по прямой точности. Платформа позволяет проводить оценку с учетом предвзятости без использования человеческих меток, используя контролируемые искажения для создания известных эталонных меток, и расширяется на агентные рабочие процессы с новыми метриками по точности инструментов и обнаружению выдумки.

arxiv arXiv cs.AI · 13 ч назад

Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей

HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.

arxiv arXiv cs.AI · 13 ч назад

RoboMME-Interference: Оценка памяти робота при наличии помех

RoboMME-Interference представляет кросс-сессионный бенчмарк для оценки памяти робота при наличии помех. В него добавляются несвязанные сессии к предыдущим демонстрациям, что показывает, что варианты перцептивной памяти значительно деградируют при увеличении раздражителей, подчеркивая недостаточную устойчивость существующих систем к помехам и необходимость долгосрочной памяти.

github llama.cpp · 13 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

lab Google DeepMind Blog · 13 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 13 ч назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

media r/LocalLLaMA · 13 ч назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

media r/LocalLLaMA · 13 ч назад

Sipp: открытая библиотека для инференса в браузере, построенная на llama.cpp

Sipp — это открытая библиотека, которая позволяет выполнять инференс локальных языковых моделей в браузере с использованием llama.cpp. Она позволяет пользователям запускать инференс локальных языковых моделей прямо в веб-браузерах без зависимости от облачных сервисов. Проект доступен на GitHub по адресу https://github.com/noumena-labs/Sipp.

arxiv arXiv cs.AI · 13 ч назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 13 ч назад

SAFER: надежная адаптация на этапе тестирования при противодействующих потоках

SAFER — это рамка без обучения, которая повышает устойчивость адаптации на этапе тестирования за счёт использования аугментации, ориентированной на надёжность. Она генерирует стохастические аугментации, объединяет предсказания с помощью агрегации, взвешенной корреляцией, с обнаружением выбросов, и включает адаптивное смешивание для сохранения чистой производительности при противодействующих атаках. Оценки на PACS, VLCS и OfficeHome показывают улучшенную устойчивость без потери чистой точности.

arxiv arXiv cs.AI · 13 ч назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.