Тема · Research paper
arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.AI · 6 д назад

Управление задачами снижает задержку очереди на 14-75% на масштабе предприятия

Управление задачами вводит инференс приоритета, объединение связанных событий и прерывание, чтобы обеспечить непрерывную работу в корпоративной ИИ. Оно снижает задержку высокоприоритетных очередей на 14-77% и улучшает точность связанных событий более чем на 20 процентных пунктов на масштабе предприятия, решая шум при открытии агентов как основной барьер.

arxiv arXiv cs.AI · 6 д назад

Модульная спарсность синхронизации для обучения PINN

ModSync решает проблему потери способности в PINN за счёт предотвращения функциональной модульности и само-разделения перепараметризованных сетей. Оно усиливает взаимодействие между целями за счёт структурной оптимизации, которая штрафует специализированные соединения, при этом сохраняя пути, способствующие взаимодействию.

arxiv arXiv cs.AI · 6 д назад

Психологические профили LLM являются артефактами измерения

Формальный психометрический анализ показывает, что видимые психологические профили больших языковых моделей в основном обусловлены смещением ответов, а не реальными чертами. Это смещение, которое приводит к систематическому предпочтению моделей к одному концу шкалы, объясняет 81-90% разнообразия между моделями, что значительно превышает различия между людьми. Исследование заключает, что эти профили являются артефактами конструкции инструмента и не отражают истинных свойств моделей, и призывает к разработке оценок, основанных на ортогональности ответов.

arxiv arXiv cs.AI · 6 д назад

ELVA: Фреймворк на основе ранжирования для многомодального поиска

ELVA вводит фреймворк на основе правил машинного обучения для решения проблемы слепоты к деталям в многомодальном поиске. Используя подтверждаемые вознаграждения и различая отрицательные образцы на основе сходства, ELVA повышает точность ранжирования и достигает роста на 13,1% на MRBench, бенчмарке для сценариев многократного запроса.

arxiv arXiv cs.LG · 7 д назад

QCPIKAN: квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда для уравнений в частных производных

QCPIKAN — первая квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда, разработанная для решения уравнений в частных производных. Она использует слои на основе чебышёвских полиномов КАН и параметризованных квантовых схем для встраивания физических ограничений в процесс обучения, обеспечивая экспоненциальное сходимость ошибки и снижение численной дисперсии. Проверена на сценариях проникновения в пористых средах, она превосходит существующие квантово-классические нейронные сети по точности предсказания, контролю ошибки и динамическому отслеживанию.

arxiv arXiv cs.CL · 7 д назад

Введение P-CHR AUC и CRR для семантической кэширования

Мы вводим метрики Точность-Кэш-Хит-Рейт (P-CHR) AUC и Калибровочная устойчивость (CRR), чтобы решить разрыв калибровки в семантическом кэшировании. Эти метрики оценивают точность на разных уровнях использования кэша и измеряют, насколько качество ранжирования в открытом режиме сохраняется при развертывании. Анализ показывает, что разрыв обусловлен тренировочными целями, а не масштабом данных, и пост-хай-калибровка лишь частично решает эту проблему.

arxiv arXiv cs.CL · 7 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 7 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.

arxiv arXiv cs.CL · 7 д назад

CATCH-ME, если вы RAG: Мультимедийный датасет для противодействия ненависти и недостоверной информации

CATCH-ME представляет первый масштабный мультимедийный датасет контекстуально аннотированных мульти-переводных диалогов противодействия ненависти и недостоверной информации. Датасет охватывает пять языков и сосредоточен на семи маргинализированных группах, диалоги основаны на проверенных источниках фактической проверки и включают аннотации на уровне документов и фрагментов для систем RAG.

arxiv arXiv cs.LG · 7 д назад

Перекрестная оценка AUC для оценки реалистичного детектора фейков

Новый метрика, перекрестная оценка AUC (Cross-AUC), решает недостатки традиционной оценки AUC, средняя по доменам AUC и включает поляризацию предсказаний через расстояние Вассерштейна. Она лучше отражает реальную производительность при сдвигах доменов и предоставляет интерпретируемые данные о деградации детектора.

arxiv arXiv cs.CL · 7 д назад

Dango: строго однолингвальный LLM для исследований SLA

Dango — это LLM с 1,8 миллиарда параметров, разработанный для изучения второго языкового приобретения на японском языке в английском. Он использует метод фильтрации для минимизации английской контаминации в монолингвальной предобученной фазе, сохраняя реалистичное воздействие первого языка. После тонкой настройки на уроки, сгенерированные LLM, Dango создает человечески естественные выводы на втором языке, превосходя нефильтрованные и стандартные многолингвальные модели.

arxiv arXiv cs.LG · 7 д назад

Обнаружение структурных искажений через сдвиги причинных механизмов

Эта статья представляет алгоритм StruBI, который выявляет скрытые смещения из-за конфликтов и выбора путем анализа сдвигов причинных механизмов в различных средах. Алгоритм формализует критерий на основе мутуальной информации для обнаружения структурных искажений и демонстрирует превосходную производительность при восстановлении искаженных переменных на синтетических и реальных данных.

arxiv arXiv cs.LG · 7 д назад

Расширение системы аварийного торможения с использованием неприменяемых данных через мета-обратную связь в полуосуществленном обучении

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему автоматического аварийного торможения с использованием огромных объемов неприменяемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок и подавляет риски гиперболизации, обеспечивая соотношение 100:1 между положительными и ложными активациями и на 35% больше километров безаварийного вождения по сравнению с базовым вариантом на основе правил в реальных условиях эксплуатации.

arxiv arXiv cs.LG · 7 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная система глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введённых транзитов размером Земли и подземных планет, 97,4% введённых транзитов полностью охвачены оцененными окнами транзитов, и успешно восстанавливает все 34 подтверждённых планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.LG · 7 д назад

Нулевая активная акустическая получение признаков через эlicitацию LLM

Новый фреймворк позволяет осуществлять нулевое активное получение признаков, используя LLM для извлечения только дискриминативных статистик, таких как одиночные отклонения и парные ковариации. С помощью максимальной энтропийной закрытия решается неопределенность при выборе признаков и превосходит сам LLM, особенно в сложных случаях пациентов с ИБД, где уровень диагностической неопределенности высок.

arxiv arXiv cs.LG · 7 д назад

DIPHINE: Нейронный оценщик для $Φ$-ID в непрерывных системах

DIPHINE — первый нейронный оценщик, использующий модели диффузии на основе оценки для одновременной оценки всех взаимных информационных терминов, необходимых для интегрированного информационного разложения ($Φ$ID), из одного амортизированного сети. Он восстанавливает шестнадцать не пересекающихся информационных атомов с помощью инверсии Мёбиуса и предоставляет теоретический анализ, показывающий, что оценка синергии на синергию является самой сложной, с точными результатами на синтетических тестах и реальных биологических данных.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.