Все статьи
arxiv arXiv cs.LG · 11 ч назад

Важность-взвешенная на-политическая дистилляция устраняет смещение позиции

На-политическая дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохое обучение. Мы вводим Важность-взвешенную на-политическую дистилляцию (IW-OPD), которая присваивает веса на основе распределения, приоритизируя ранние токены. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025.

arxiv arXiv cs.LG · 11 ч назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.LG · 11 ч назад

Малые языковые модели превосходят передовые крупные языковые модели по извлечению отношений

Финетурированный модель Qwen2.5 с 0,5 миллиарда параметров достигает 0,83 микроФ1 в извлечении отношений в общей области, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах она достигает 0,92 на датасете Биографический, превосходя GPT-5.4 и превосходя передовые модели по точности, демонстрируя, что адаптированные к задаче малые модели могут обеспечивать высокую производительность при минимальных затратах на оборудование и приватность.

media r/LocalLLaMA · 11 ч назад

Я разработал Windows Copilot в виде бесплатной OpenAI-совместимой API

Пользователь создал локальную API, которая имитирует функциональность GPT-4, совместимую с OpenAI, используя бесплатный сервис Microsoft Copilot. Инструмент авторизуется в аккаунте Microsoft один раз, работает локально на устройстве Windows и предоставляет сервер по адресу http://localhost:8000/v1, поддерживающий потоковые и многократные диалоги без необходимости API-ключа или оплаты. Инструмент предназначен для личного и образовательного использования и доступен по ссылке https://github.com/sums001/Windows-Copilot-API.

blog Simon Willison · 11 ч назад

Том Макврайт о случайной анонимности в заявках на работу

Том Макврайт отмечает, что все больше заявок на работу включают содержимое, сгенерированное с помощью языковых моделей, включая портфолио и проекты на GitHub с фальшивыми сообщениями о коммитах. Он отмечает, что такие заявки не раскрывают мало о кандидатах, поскольку они не содержат личной искренности и искреннего самовыражения.

arxiv arXiv cs.AI · 11 ч назад

Геометрия-ориентированный онлайн-расписыватель для обслуживания больших языковых моделей

Новый алгоритм расписывания, Smallest Volume First (SVF), снижает задержку инференса больших языковых моделей за счёт оптимизации управления кэшем ключ-значение. Теоретический анализ показывает, что коэффициент конкуренции в худшем случае сократился с 48 до 5, при этом 1-битный SVF обеспечивает высокую производительность при минимальной информации. Оценки на моделях Llama-3.1 подтверждают улучшения как средней, так и хвостовой задержки, при этом подход был интегрирован в vLLM.

arxiv arXiv cs.AI · 11 ч назад

BabelJudge: Оценка надежности LLM-как-судьи в разных языках и траекториях агента

BabelJudge представляет открытую платформу для измерения четырех ключевых форм предвзятости в LLM-судьях в различных языках и траекториях агентов. Платформа выявляет значительное падение надежности от хинди до саванги — с 0,714 до 0,550 — что подчеркивает деградацию между языками, недоступную по прямой точности. Платформа позволяет проводить оценку с учетом предвзятости без использования человеческих меток, используя контролируемые искажения для создания известных эталонных меток, и расширяется на агентные рабочие процессы с новыми метриками по точности инструментов и обнаружению выдумки.

arxiv arXiv cs.AI · 11 ч назад

Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей

HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.

arxiv arXiv cs.AI · 11 ч назад

RoboMME-Interference: Оценка памяти робота при наличии помех

RoboMME-Interference представляет кросс-сессионный бенчмарк для оценки памяти робота при наличии помех. В него добавляются несвязанные сессии к предыдущим демонстрациям, что показывает, что варианты перцептивной памяти значительно деградируют при увеличении раздражителей, подчеркивая недостаточную устойчивость существующих систем к помехам и необходимость долгосрочной памяти.

github llama.cpp · 12 ч назад

llama.cpp выпускает b9782 с новыми бинарниками и поддержкой

llama.cpp выпускает версию b9782, включающую бинарники для macOS, Linux, Android, Windows и openEuler. В релизе добавлена поддержка Vulkan, OpenVINO, SYCL, ROCm и CUDA на нескольких архитектурах, с обновлённым интерфейсом и отключёнными функциями, такими как KleidiAI и поддержка openEuler.

lab Google DeepMind Blog · 12 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 12 ч назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

media r/LocalLLaMA · 12 ч назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

media r/LocalLLaMA · 12 ч назад

Sipp: открытая библиотека для инференса в браузере, построенная на llama.cpp

Sipp — это открытая библиотека, которая позволяет выполнять инференс локальных языковых моделей в браузере с использованием llama.cpp. Она позволяет пользователям запускать инференс локальных языковых моделей прямо в веб-браузерах без зависимости от облачных сервисов. Проект доступен на GitHub по адресу https://github.com/noumena-labs/Sipp.

arxiv arXiv cs.AI · 12 ч назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 12 ч назад

SAFER: надежная адаптация на этапе тестирования при противодействующих потоках

SAFER — это рамка без обучения, которая повышает устойчивость адаптации на этапе тестирования за счёт использования аугментации, ориентированной на надёжность. Она генерирует стохастические аугментации, объединяет предсказания с помощью агрегации, взвешенной корреляцией, с обнаружением выбросов, и включает адаптивное смешивание для сохранения чистой производительности при противодействующих атаках. Оценки на PACS, VLCS и OfficeHome показывают улучшенную устойчивость без потери чистой точности.

arxiv arXiv cs.AI · 12 ч назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.

arxiv arXiv cs.AI · 12 ч назад

Первые токены в трансформерах: идентичность языка и устойчивость

LIHA показывает небольшое количество голов первых токенов в GPT-2, которые постоянно обращаются к первому токену промпта, вызывая смену языка. Обучение по инструкциям перестраивает эти схемы, концентрируя идентичность языка на ранних слоях, как это наблюдается в Qwen2.5-1.5B-Instruct и подтверждается в обработке китайского и русского языков на слое 0.

arxiv arXiv cs.AI · 12 ч назад

Оценка физической согласованности в генерации видео без ссылок

Новый метод оценивает физическую согласованность в сгенерированных видео без необходимости человеческих оценок или истинных ссылок. Он использует DROID-SLAM и SEA-RAFT для обнаружения несоответствий, повышая показатели успешного выполнения задачи более чем на 8% и позволяя проводить спектро-временное локализацию физических артефактов.

arxiv arXiv cs.AI · 12 ч назад

Очистка меток с использованием больших языковых моделей в наборе данных по рентгеновским снимкам грудной клетки

Большая языковая модель (LLM) помогла выявить несоответствия между метками и отчетами в наборе данных CT-RATE по рентгеновским снимкам грудной клетки. GPT-5.4 достигла согласия на уровне 96,4% с существующими метками, при этом рентгенологическая проверка подтвердила метки, полученные с помощью LLM, в 74,2% общих и 91,9% случаев лимфоаденопатии. Метки, полученные с помощью большинства из нескольких LLM, показали лучшие результаты по F1 и кэппу, и очищенный набор данных будет опубликован.