Тема · Research paper
arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 7 д назад

Введение P-CHR AUC и CRR для семантической кэширования

Мы вводим метрики Точность-Кэш-Хит-Рейт (P-CHR) AUC и Калибровочная устойчивость (CRR), чтобы решить разрыв калибровки в семантическом кэшировании. Эти метрики оценивают точность на разных уровнях использования кэша и измеряют, насколько качество ранжирования в открытом режиме сохраняется при развертывании. Анализ показывает, что разрыв обусловлен тренировочными целями, а не масштабом данных, и пост-хай-калибровка лишь частично решает эту проблему.

arxiv arXiv cs.CL · 7 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 7 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.

arxiv arXiv cs.CL · 7 д назад

CATCH-ME, если вы RAG: Мультимедийный датасет для противодействия ненависти и недостоверной информации

CATCH-ME представляет первый масштабный мультимедийный датасет контекстуально аннотированных мульти-переводных диалогов противодействия ненависти и недостоверной информации. Датасет охватывает пять языков и сосредоточен на семи маргинализированных группах, диалоги основаны на проверенных источниках фактической проверки и включают аннотации на уровне документов и фрагментов для систем RAG.

arxiv arXiv cs.LG · 7 д назад

Перекрестная оценка AUC для оценки реалистичного детектора фейков

Новый метрика, перекрестная оценка AUC (Cross-AUC), решает недостатки традиционной оценки AUC, средняя по доменам AUC и включает поляризацию предсказаний через расстояние Вассерштейна. Она лучше отражает реальную производительность при сдвигах доменов и предоставляет интерпретируемые данные о деградации детектора.

arxiv arXiv cs.CL · 7 д назад

Dango: строго однолингвальный LLM для исследований SLA

Dango — это LLM с 1,8 миллиарда параметров, разработанный для изучения второго языкового приобретения на японском языке в английском. Он использует метод фильтрации для минимизации английской контаминации в монолингвальной предобученной фазе, сохраняя реалистичное воздействие первого языка. После тонкой настройки на уроки, сгенерированные LLM, Dango создает человечески естественные выводы на втором языке, превосходя нефильтрованные и стандартные многолингвальные модели.

arxiv arXiv cs.LG · 7 д назад

Обнаружение структурных искажений через сдвиги причинных механизмов

Эта статья представляет алгоритм StruBI, который выявляет скрытые смещения из-за конфликтов и выбора путем анализа сдвигов причинных механизмов в различных средах. Алгоритм формализует критерий на основе мутуальной информации для обнаружения структурных искажений и демонстрирует превосходную производительность при восстановлении искаженных переменных на синтетических и реальных данных.

arxiv arXiv cs.LG · 7 д назад

Расширение системы аварийного торможения с использованием неприменяемых данных через мета-обратную связь в полуосуществленном обучении

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему автоматического аварийного торможения с использованием огромных объемов неприменяемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок и подавляет риски гиперболизации, обеспечивая соотношение 100:1 между положительными и ложными активациями и на 35% больше километров безаварийного вождения по сравнению с базовым вариантом на основе правил в реальных условиях эксплуатации.

arxiv arXiv cs.LG · 7 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная система глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введённых транзитов размером Земли и подземных планет, 97,4% введённых транзитов полностью охвачены оцененными окнами транзитов, и успешно восстанавливает все 34 подтверждённых планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.LG · 7 д назад

Нулевая активная акустическая получение признаков через эlicitацию LLM

Новый фреймворк позволяет осуществлять нулевое активное получение признаков, используя LLM для извлечения только дискриминативных статистик, таких как одиночные отклонения и парные ковариации. С помощью максимальной энтропийной закрытия решается неопределенность при выборе признаков и превосходит сам LLM, особенно в сложных случаях пациентов с ИБД, где уровень диагностической неопределенности высок.

arxiv arXiv cs.LG · 7 д назад

DIPHINE: Нейронный оценщик для $Φ$-ID в непрерывных системах

DIPHINE — первый нейронный оценщик, использующий модели диффузии на основе оценки для одновременной оценки всех взаимных информационных терминов, необходимых для интегрированного информационного разложения ($Φ$ID), из одного амортизированного сети. Он восстанавливает шестнадцать не пересекающихся информационных атомов с помощью инверсии Мёбиуса и предоставляет теоретический анализ, показывающий, что оценка синергии на синергию является самой сложной, с точными результатами на синтетических тестах и реальных биологических данных.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.LG · 7 д назад

Геометрический и стохастический анализ разрывов в разреженных моделях смеси экспертов

В этой статье анализируются разрывы в моделях разреженной смеси экспертов, классифицируются по порядку и показывается, что разрывы низкого порядка доминируют по объёму. Доказывается, что случайные входные пути почти наверное первоначально достигают разрыва первого порядка с вероятностными оценками конечного времени, и выводятся оценки времени пребывания для каждого порядка. Предлагается простой механизм сглаживания, который улучшает непрерывность и производительность модели с минимальными затратами вычислительных ресурсов.

arxiv arXiv cs.LG · 7 д назад

Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Новый фреймворк использует обучение с положительными и непримечаемыми примерами и частичный оптимальный транспорт для аудита искажений в оценке языковых моделей. Он выравнивает положительные ответы, подтвержденные людьми, с ответами модели, не имеющими меток, в пространстве вложений, выявляя стабильные предпочтения людей и корректируя искажение избыточности без переобучения. Эксперименты показывают улучшенное соответствие с людьми, устойчивость к искажениям в представлении и интерпретируемость оценок уверенности.

arxiv arXiv cs.LG · 7 д назад

Giskard: протокол агрегации с конфиденциальностью и устойчивостью к байзантинским узлам

Giskard обеспечивает агрегацию распределенной машинного обучения с конфиденциальностью и устойчивостью к байзантинским узлам, организуя участников в деревянные комитеты размера O(log n). Он использует MPC в стиле BGW и адаптированный бинарный поиск в комитетах для вычисления приближенного медиана, что снижает асимптотическую сложность коммуникации на каждом участнике, сохраняя полезность модели при до n/4 байзантинских участниках.

arxiv arXiv cs.LG · 7 д назад

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

OrthoReg вводит ортогональную регуляризацию для предотвращения того, что нейронные компоненты переподучивают символические структуры в гибридных динамических системах. Снижая прямое взаимодействие между символическими и нейронными частями, оно обеспечивает дополнительное разложение, при котором символические модели отвечают за выражимую физику, а нейронные модели — за оставшиеся динамики. На тестах с частичным несовпадением библиотеки OrthoReg улучшает восстановление символических структур и производительность за пределами распределения.

arxiv arXiv cs.CL · 7 д назад

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.

arxiv arXiv cs.CL · 7 д назад

LegalWorld: Циклическая среда для юридических агентов

LegalWorld моделирует китайские гражданские судебные разбирательства как причинно связанный цепочку из пяти стадий, основываясь на 75 309 решениях. В нем включены повторно используемые инфраструктуры для поддержания согласованности на всех стадиях и позволяет LongJud-Bench оценивать производительность агентов на всех этапах, выявляя значительные пробелы в способностях моделей в различных юридических задачах.

arxiv arXiv cs.AI · 8 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.