Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

Публичные архивы оценки ИИ показывают, что один конечный результат может возникнуть из двух различных предшествующих историй, с оценками времени достижения 95% производительности на уровне 23,03 или 75,13. Модель, учитывающая выбор кандидатов, несущественно неудовлетворяет синтетическому восстановлению и калибровке неопределённости, и отклоняется при фиксированных проверках. Протокол архивирования и разрешения подтверждает временные границы и опровергает необоснованные утверждения о фронтовых достижениях.

arxiv arXiv cs.AI · 9 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом калибровка анкоров позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.AI · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

arxiv arXiv cs.AI · 9 д назад

HAMON: Пассивная оптическая предсказательная система для прогнозирования временных рядов на долгосрочной основе

HAMON использует пассивные оптические компоненты для выполнения прогнозирования временных рядов на долгосрочной основе, превосходя лучшие цифровые модели на ETTm2 во всех горизонтах и на ETTh2 на всех, кроме самого длинного горизонта. Оно достигает снижения MSE до 14% и использует физическое распространение оптического сигнала без тренируемых цифровых слоев, демонстрируя, что пассивное оптическое смешивание может обеспечивать конкурентные прогнозы.

arxiv arXiv cs.AI · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TokenPilot: Эффективное управление контекстом для агентов LLM

HAMON: Пассивная оптическая предсказательная система для прогнозирования временных рядов на долгосрочной основе

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

CEAP снижает дисперсию в открытии циркуитов в LLM

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Единая кausalная классификация источников смещений распределений в RL

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Каузальный подход к аудиту раскрытий синтетических данных

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Статистическая упрощение разделяет инференс от обновления состояния

Dynestyx: Вероятностное программирование для динамических систем

Аналитическая торсия и поглощение спектрального разрыва в производительности постоянного лапласиана

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

ActiveSAM: Быстрый и точный открытие-словарный сегментация

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода