Research paper — korshunov.ai

Тема · Research paper

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.LG · 7 д назад

Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Новый фреймворк использует обучение с положительными и непримечаемыми примерами и частичный оптимальный транспорт для аудита искажений в оценке языковых моделей. Он выравнивает положительные ответы, подтвержденные людьми, с ответами модели, не имеющими меток, в пространстве вложений, выявляя стабильные предпочтения людей и корректируя искажение избыточности без переобучения. Эксперименты показывают улучшенное соответствие с людьми, устойчивость к искажениям в представлении и интерпретируемость оценок уверенности.

arxiv arXiv cs.LG · 8 д назад

Giskard: протокол агрегации с конфиденциальностью и устойчивостью к байзантинским узлам

Giskard обеспечивает агрегацию распределенной машинного обучения с конфиденциальностью и устойчивостью к байзантинским узлам, организуя участников в деревянные комитеты размера O(log n). Он использует MPC в стиле BGW и адаптированный бинарный поиск в комитетах для вычисления приближенного медиана, что снижает асимптотическую сложность коммуникации на каждом участнике, сохраняя полезность модели при до n/4 байзантинских участниках.

arxiv arXiv cs.LG · 8 д назад

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

OrthoReg вводит ортогональную регуляризацию для предотвращения того, что нейронные компоненты переподучивают символические структуры в гибридных динамических системах. Снижая прямое взаимодействие между символическими и нейронными частями, оно обеспечивает дополнительное разложение, при котором символические модели отвечают за выражимую физику, а нейронные модели — за оставшиеся динамики. На тестах с частичным несовпадением библиотеки OrthoReg улучшает восстановление символических структур и производительность за пределами распределения.

arxiv arXiv cs.CL · 8 д назад

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.

arxiv arXiv cs.CL · 8 д назад

LegalWorld: Циклическая среда для юридических агентов

LegalWorld моделирует китайские гражданские судебные разбирательства как причинно связанный цепочку из пяти стадий, основываясь на 75 309 решениях. В нем включены повторно используемые инфраструктуры для поддержания согласованности на всех стадиях и позволяет LongJud-Bench оценивать производительность агентов на всех этапах, выявляя значительные пробелы в способностях моделей в различных юридических задачах.

arxiv arXiv cs.AI · 8 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.

arxiv arXiv cs.AI · 8 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная архитектура глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введенных транзитов размером Земли и подземной Земли, 97,4% введенных транзитов полностью охвачены оцененными окнами транзита, и успешно восстанавливает все 34 подтвержденных планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.AI · 8 д назад

Изменчивость в программном обеспечении, созданном с помощью ИИ: Новый подход к разработке линейки продуктов

Экспериментальный анализ 10 проектов на языках C/C++, кодированных по принципу vibe, показывает практически нулевую изменчивость в артефактах, при этом все решения принимаются на этапе генерации. В статье предлагается подход Variability by Regeneration (VbR), в котором LLM выступает в роли двигателя дифференциации, генерируя настраиваемые бинарные файлы из декларативных спецификаций, при этом диспетчер вариантов направляет запросы пользователя на соответствующий бинарный файл. Vb-Р переносит изменчивость в спецификации, а не в код, предлагая новый парадигм для инженерии систем с переменными параметрами.

arxiv arXiv cs.AI · 8 д назад

Техническая классификация протоколов коммуникации агентов на основе ЛЛМ

Новая классификация классифицирует протоколы коммуникации агентов на основе ЛЛМ по пяти измерениям: сопряжённый субъект, нагрузка, состояние взаимодействия, механизм обнаружения и гибкость схемы. Анализ показывает, что гибридные нагрузки, сохранение состояния сессии и переговоры о схеме во время выполнения являются распространенными, в то время как децентрализованное обнаружение остаётся редким. Исследование прогнозирует краткосрочную тенденцию к унификации протоколов агент-к-агенту и агент-к-контексту, и долгосрочное развитие в сторону распределённой, многоуровневой стека протоколов.

arxiv arXiv cs.AI · 8 д назад

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

OrthoReg вводит ортогональную регуляризацию для предотвращения того, что нейронные компоненты переподучивают символические структуры в гибридных динамических системах. Средством прямого штрафа за пересечение между символическими и нейронными частями, оно обеспечивает дополнительную декомпозицию, при которой символические модели отвечают за выражимую физику, а нейронные компоненты — за оставшиеся динамические процессы. На тестовых наборах с частичным несовпадением библиотек, OrthoReg улучшает восстановление символических структур и производительность вне распределения.

media Don't Worry About the Vase · 8 д назад

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

Статья подтверждает, что не произошло реального проникновения в ИИ Fable от Anthropic. Вместо этого проводился тест с фальшивым кодом, содержащим встроенные уязвимости, при котором Fable отказался проверять код и отвечал только на запрос исправить этот код после ручных действий. Кейти Муссурис из Luta Security утверждает, что такой сценарий не должен вызывать контроль экспорта, называя его намеренным, искусственно созданным тестом, который оспаривает утверждения о нарушении безопасности.

arxiv arXiv cs.LG · 8 д назад

ConTex: Глобальное генерирование контрапротивных сценариев для прогнозирования временных рядов

ConTex переформулирует генерацию контрапротивных сценариев для прогнозирования временных рядов как задачу глобально согласованного вмешательства. Оно достигает уровня валидности, соответствующего самым современным достижениям, с редкими, интерпретируемыми вмешательствами, снижает вычислительные затраты в 12-36 раз и позволяет проводить реальное включение за примерно 0,007 секунд.

arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.

arxiv arXiv cs.LG · 8 д назад

LiL-Q: Конвексный метод для нелинейных дифференциальных уравнений в частных производных с PINNs

Новый конвексный метод квазилинейнойизации, LiL-Q, решает нелинейные дифференциальные уравнения в частных производных, приводя их к линейным подзадачам с помощью физически обусловленных нейронных сетей. LiL-Q сходится за несколько итераций на семи тестовых задачах, достигая машинной точности при наличии точного решения в пространстве проб, и требует до двух порядков величины меньше параметров, чем стандартные решатели PINNs.

arxiv arXiv cs.CL · 8 д назад

Промпты по безопасности и приватности в диалогах пользователей с LLM

Исследование 14 727 промптов по безопасности и приватности из 3,2 млн реальных диалогов пользователей с LLM выявляет девять категорий запросов по безопасности и приватности. Коммерческие LLM превосходят открытые модели: GPT 5.5 обеспечивает хорошие ответы на 98% запросов, в то время как Llama 4 — на 47%, хотя некоторые коммерческие модели дают противоречивые ответы в разных исполнениях.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

SPHERE-JEPA: Семейство статистических регуляторов для гиперсферы

SPHERE-JEPA вводит детерминированные статистические регуляторы на гиперсфере, заменяя стохастические срезанные методы аналитически интегрируемыми целями, такими как MMD, KSD и расстояние Клайна. Вращающиеся инвариантные ядра, основанные на тепловых и полосовых фильтрах, обеспечивают обучение без пространственной предвзятости, при этом эмпирические результаты показывают улучшенную сходимость и производительность на ImageNet и Galaxy10, а также превосходное разделение экземпляров в процедурном извлечении текстур с использованием расстояния Клайна.

arxiv arXiv cs.LG · 8 д назад

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

TUNEAHEAD — это легкий фреймворк, который предсказывает производительность тонкой настройки с использованием мета-векторов из описаний датасетов и коротких пробных запусков. Он превосходит базовые методы, такие как Early-Stop Extrapolation и ProxyLM, достигая RMSE в 1,47 процентных пунктах и 95,1% предсказаний в пределах ±3 процентных пунктов от истинных оценок на 370 отложенных запусках.

arxiv arXiv cs.LG · 8 д назад

Кадровый кураторский фреймворк с учетом неопределенности

Внутри фреймворка Transfer Teacher вводится оценка степени неопределенности, чтобы улучшить интерпретируемость модели и эффективность обучающих данных. Оценки на CIFAR-10 показывают, что порядок кураторского обучения с учетом неопределенности превосходит случайный порядок на 8,7% при 20% данных, демонстрируя стабильные выгоды в эффективности использования данных. Однако как кураторский, так и анти-кураторский порядок не улучшают точность по сравнению с обычной тренировкой на полных данных, что указывает на то, что улучшения функции оценки сами по себе недостаточны для преодоления неудачных режимов обучения по кураторскому подходу.

Падение и восстановление точности маршрутизации в системах агентов предприятий

Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Giskard: протокол агрегации с конфиденциальностью и устойчивостью к байзантинским узлам

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

LegalWorld: Циклическая среда для юридических агентов

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

Изменчивость в программном обеспечении, созданном с помощью ИИ: Новый подход к разработке линейки продуктов

Техническая классификация протоколов коммуникации агентов на основе ЛЛМ

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

Без проникновения: сценарий "Исправьте этот код" в Fable был фальшивым

ConTex: Глобальное генерирование контрапротивных сценариев для прогнозирования временных рядов

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

LiL-Q: Конвексный метод для нелинейных дифференциальных уравнений в частных производных с PINNs

Промпты по безопасности и приватности в диалогах пользователей с LLM

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

SPHERE-JEPA: Семейство статистических регуляторов для гиперсферы

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

Кадровый кураторский фреймворк с учетом неопределенности