Все статьи
arxiv arXiv cs.AI · 15 д назад

Фреймворк агентного LLM для классификации кодов HTS

Предлагается консенсусный агентный фреймворк больших языковых моделей для точной классификации 10-значных кодов Согласованной тарифной системы в морской логистике Канады. На 3300 экспертно обозначенных записях о продуктах модель показывает, что детальная классификация HTS остается сложной для продвинутых LLM, подчеркивая необходимость в работе, основанной на доказательствах, учитывающей неопределенность и включающей человека в процесс.

arxiv arXiv cs.AI · 15 д назад

Прогресс, обусловленный ИИ, в стабильных меню общественных благ

Эксперименты по теме "Стабильные меню общественных благ" на конференции EC 2025 показывают, что промпты, основанные на человеческой интуиции, улучшают производительность ЛЛМ и мульти-переводные взаимодействия усиливают амбициозные шаги. Однако при сравнении с первым годом аспиранта, использующим непубликованный рукописный материал, ЛЛМ оказывается слегка менее эффективным.

arxiv arXiv cs.AI · 15 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.AI · 15 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.AI · 15 д назад

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

Публичные архивы оценки ИИ показывают, что один конечный результат может возникнуть из двух различных предшествующих историй, с оценками времени достижения 95% производительности на уровне 23,03 или 75,13. Модель, учитывающая выбор кандидатов, несущественно неудовлетворяет синтетическому восстановлению и калибровке неопределённости, и отклоняется при фиксированных проверках. Протокол архивирования и разрешения подтверждает временные границы и опровергает необоснованные утверждения о фронтовых достижениях.

arxiv arXiv cs.AI · 15 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом калибровка анкоров позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.AI · 15 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

arxiv arXiv cs.AI · 15 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.AI · 15 д назад

HAMON: Пассивная оптическая предсказательная система для прогнозирования временных рядов на долгосрочной основе

HAMON использует пассивные оптические компоненты для выполнения прогнозирования временных рядов на долгосрочной основе, превосходя лучшие цифровые модели на ETTm2 во всех горизонтах и на ETTh2 на всех, кроме самого длинного горизонта. Оно достигает снижения MSE до 14% и использует физическое распространение оптического сигнала без тренируемых цифровых слоев, демонстрируя, что пассивное оптическое смешивание может обеспечивать конкурентные прогнозы.

arxiv arXiv cs.AI · 15 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

media Latent Space · 15 д назад

Сатя Наделла о Loopcraft и экосистемах Frontier

Генеральный директор Microsoft Сатя Наделла представляет 'Loopcraft' как новую теорию компании, подчеркивая, что истинная возможность в ИИ заключается не в выборе самого лучшего модели, а в создании учебных циклов, которые умножают человеческие и токенизированные активы. Он утверждает, что приоритет должен быть направлен на создание экосистем frontier, в которых каждая организация может владеть и развивать свою институциональную информацию, обеспечивая широкое распространение ценности между отраслями и странами.

media r/LocalLLaMA · 15 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 15 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 15 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

blog Simon Willison · 15 д назад

Cloudflare CAPTCHA активируется только для запросов с амперсандом

Симон Виллисон настроил CAPTCHA от Cloudflare так, чтобы он активировался только для запросов поиска, содержащих хотя бы один амперсанд. Правило использует пользовательский фильтр: (http.request.uri.path wildcard r"\/search\/*" и http.request.uri.query contains "&"). Это позволяет простым запросам, таким как /search/?q=lemur, проходить без CAPTCHA.

blog Simon Willison · 15 д назад

datasette-agent 0.3a0 выпускается с согласия пользователя по операциям записи SQL

datasette-agent 0.3a0 вводит инструмент execute_write_sql, который запрашивает у пользователя разрешение перед записью в базы данных, обеспечивая соблюдение проверок разрешений. Обновление также улучшает чат datasette agent с поддержкой согласия пользователя, новые опции команды, такие как --unsafe для автоматического согласия, и текстовые выводы инструментов для отображения в командной строке.