Research paper
arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 9 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 9 д назад

Концептуальная рамка оценки агентных навыков на масштабе

Мы предлагаем рамку оценки агентных навыков, при которой создаются реалистичные задачи и оцениваются полезность навыков путем выполнения задач. Применение к 500 реальным навыкам генерирует 1000 задач и критериев оценки, оценивая 19 конфигураций агент-моделей на проприетарных и открытых моделях. Результаты показывают значительные различия в соблюдении инструкций и росте производительности, при этом навыки существенно изменяют поведение моделей по сравнению с конфигурациями без навыков.

arxiv arXiv cs.CL · 9 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.

arxiv arXiv cs.CL · 9 д назад

Неположительное декодирование Эластичного сети для информационного поиска

Декодирование NNN выбирает документы как совокупность, которая совместно восстанавливает вектор запроса через разреженную неотрицательную линейную комбинацию. Оно строго расширяет плотное извлечение, обеспечивая обработку запросов, на которых плотное извлечение не справляется, особенно в корпусах с коррелированными документами, и достигает превосходной производительности за счет обучения векторов в конечном виде.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

arxiv arXiv cs.CL · 10 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.AI · 10 д назад

Опубликовано множество данных IMPACTeen в английской и польской версиях

IMPACTeen — это набор из 1021 текста, аннотированный с пяти сторон — подростков, родителей, психологов, экспертов по коммуникации и учителей. В него входят 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с аннотациями, проверенными через ручную редакцию. Набор данных, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и поддерживает исследования в области социального влияния и обучения языковых моделей.

arxiv arXiv cs.AI · 10 д назад

MA-SBI: калибровка-безопасный SBI через направление стороннего канала

MA-SBI представляет рамку симуляционного вывода без калибровки, которая использует текстовые данные стороннего канала, такие как метки режима или инструкции, для коррекции недостаточности симулятора. Оно использует обученный корректор для применения сдвигов в пространстве наблюдений до вывода постериорного распределения, не требуя пар параметров с истинными значениями или переподготовки. На тестах hide-the-calibration MA-SBI достигает орального постериорного распределения с помощью текста, превосходя RoPE при ограниченных данных, и демонстрирует устойчивость на реальных данных по эпидемиологии и когнитивной науке.

arxiv arXiv cs.AI · 10 д назад

Документация по исследованию ИИ улучшается в течение десятилетия

Анализ 56 800 статей на конференциях по ИИ показывает, что практики документирования улучшились с 2014 по 2024 год. Доля статей, в которых публиковались как код, так и данные, возросла с 11% до 64%, а оценка воспроизводимости увеличилась с 28% до 64%. Эти улучшения предшествуют официальным проверкам воспроизводимости, что указывает на более широкий сдвиг в сторону открытой науки.

arxiv arXiv cs.AI · 10 д назад

Прогресс, обусловленный ИИ, в стабильных меню общественных благ

Эксперименты по теме "Стабильные меню общественных благ" на конференции EC 2025 показывают, что промпты, основанные на человеческой интуиции, улучшают производительность ЛЛМ и мульти-переводные взаимодействия усиливают амбициозные шаги. Однако при сравнении с первым годом аспиранта, использующим непубликованный рукописный материал, ЛЛМ оказывается слегка менее эффективным.

arxiv arXiv cs.AI · 10 д назад

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

Публичные архивы оценки ИИ показывают, что один конечный результат может возникнуть из двух различных предшествующих историй, с оценками времени достижения 95% производительности на уровне 23,03 или 75,13. Модель, учитывающая выбор кандидатов, несущественно неудовлетворяет синтетическому восстановлению и калибровке неопределённости, и отклоняется при фиксированных проверках. Протокол архивирования и разрешения подтверждает временные границы и опровергает необоснованные утверждения о фронтовых достижениях.

arxiv arXiv cs.AI · 10 д назад

HAMON: Пассивная оптическая предсказательная система для прогнозирования временных рядов на долгосрочной основе

HAMON использует пассивные оптические компоненты для выполнения прогнозирования временных рядов на долгосрочной основе, превосходя лучшие цифровые модели на ETTm2 во всех горизонтах и на ETTh2 на всех, кроме самого длинного горизонта. Оно достигает снижения MSE до 14% и использует физическое распространение оптического сигнала без тренируемых цифровых слоев, демонстрируя, что пассивное оптическое смешивание может обеспечивать конкурентные прогнозы.

arxiv arXiv cs.LG · 10 д назад

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Исследование вводит PReLU-IPM, новый интегральный показатель вероятности, основанный на нейронном дискриминаторе с одним узлом. Полученный тест PReLU-TST является непараметрическим, согласованным и асимптотически эквивалентным стандартным тестам на основе IPM, демонстрируя более высокую мощность или конкурентную производительность на симулированных и реальных данных.

arxiv arXiv cs.LG · 10 д назад

Нейронные сети фиксированного размера достигают произвольного приближения в Соболе

Новая функция активации позволяет нейронным сетям фиксированного размера приближать любую функцию в пространствах Соболе $W^{s,\infty}((a,b)^d)$ с произвольной точностью в норме $W^{s-1,\infty}$. Результаты используют элементарные функции активации, такие как EUAF и DUAF$_\infty$, с явными ограничениями по ширине и глубине, и распространяются на сигмоидальные варианты $\widetilde{\mathrm{DUAF}}_n$, сохраняющие точность для всех $1\leq s\leq n$.

arxiv arXiv cs.LG · 10 д назад

Аналитическая торсия и поглощение спектрального разрыва в производительности постоянного лапласиана

Компактное спектральное представление с использованием чисел Бетти, спектрального разрыва и аналитической торсии сжимает постоянные лапласианы до трех математически обоснованных инвариантов. Этот подход захватывает ключевые предиктивные сигналы из полного спектра, превосходит его в некоторых случаях и снижает вычислительную нагрузку на наборах данных, таких как MNIST, QM-3D и SKEMPI WT.

arxiv arXiv cs.LG · 10 д назад

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

Новый многоцентровый бенчмарк позволяет диагностировать заболевания брюшной полости и генерировать отчеты на основе не контрастного КТ, синтезируя данные контрастного усиления. В наборе данных представлены парные исследования NCCT-CECT и отчеты из двух центров, демонстрируя, что NCCT достигает средних значений AUC по многим органам на внутреннем тестировании 69,1% и на внешнем тестировании 63,1%. Бенчмарк и код опубликованы для поддержки исследований в области безопасных, без контрастных протоколов абдоминальной визуализации.

arxiv arXiv cs.LG · 10 д назад

HAMON: Пассивная оптическая система прогнозирования

HAMON использует пассивную оптическую дифракцию для генерации прогнозов и превосходит цифровые базовые модели по ETTm2 на всех горизонтах и по ETTh2 на всех горизонтах, кроме самого длинного. Оно достигает на 14% меньшей ошибки MSE и работает без тренируемой цифровой смеси, опираясь вместо этого на физическое распространение оптических волн.

arxiv arXiv cs.LG · 10 д назад

Атака RING: использование дифференциальной конфиденциальности в распределённом обучении для скрытия сигналов бэкдора

Новая атака RING использует дифференциальную конфиденциальность в распределённом обучении для скрытия сигналов бэкдора при максимизации их воздействия. Она достигает 90,3% успешности атаки против передовых защит, что на 26,08 раз превышает базовые методы, и выявляет критическую уязвимость в DP-FL из-за встроенной маскировки вредоносных обновлений.