Research paper
arxiv arXiv cs.LG · 8 д назад

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

TUNEAHEAD — это легкий фреймворк, который предсказывает производительность тонкой настройки с использованием мета-векторов из описаний датасетов и коротких пробных запусков. Он превосходит базовые методы, такие как Early-Stop Extrapolation и ProxyLM, достигая RMSE в 1,47 процентных пунктах и 95,1% предсказаний в пределах ±3 процентных пунктов от истинных оценок на 370 отложенных запусках.

arxiv arXiv cs.LG · 8 д назад

Кадровый кураторский фреймворк с учетом неопределенности

Внутри фреймворка Transfer Teacher вводится оценка степени неопределенности, чтобы улучшить интерпретируемость модели и эффективность обучающих данных. Оценки на CIFAR-10 показывают, что порядок кураторского обучения с учетом неопределенности превосходит случайный порядок на 8,7% при 20% данных, демонстрируя стабильные выгоды в эффективности использования данных. Однако как кураторский, так и анти-кураторский порядок не улучшают точность по сравнению с обычной тренировкой на полных данных, что указывает на то, что улучшения функции оценки сами по себе недостаточны для преодоления неудачных режимов обучения по кураторскому подходу.

arxiv arXiv cs.LG · 8 д назад

SMAA-Fair: Расширение SMAA с учетом справедливости для ранжирования

SMAA-Fair расширяет статистический многокритериальный анализ приемлемости, пересчитывая ранжировки на основе групповой справедливости. В него включены метрики справедливости, такие как статистическая равномерность, rKL и nDKL, которые корректируют индексы приемлемости для лучшего отражения защищенных групп, сохраняя при этом устойчивость к неопределенности предпочтений.

arxiv arXiv cs.LG · 8 д назад

Невидимое восстановление скрытых доменов за счет открытия симметрии без надзора

В статье предложена безнадзорная система восстановления скрытых доменов и сигналов из искаженных наблюдений за счет открытия симметрий данных. Авторы моделируют наблюдения как линейные измерения сигналов из скрытого случайного поля и используют неглубокую сеть с групповыми свертками с ограничениями на стационарность и локальность для обучения скрытых симметрий и фильтров, что позволяет восстанавливать сигналы из неструктурированных данных.

arxiv arXiv cs.LG · 8 д назад

QueryMarket: Онлайн-активное обучение с учетом стоимости в рынках данных

QueryMarket вводит OVBAL, онлайн-рамку активного обучения на основе дисперсии, которая оценивает междупунктовую полезность каждого данных с использованием критерия D-оптимальности с экспоненциальным забвением. OVBAL выбирает образцы на основе полезности и цены, работает под условиями подвижного бюджета и адаптируется к сдвигу концептуальных моделей, демонстрируя улучшенные компромиссы между ошибками и затратами в задачах прогнозирования мощности солнечной энергии.

arxiv arXiv cs.LG · 8 д назад

Нет-бесплатной-справедливости: фундаментальные ограничения в системах обучения

Статья вводит теоремы "Нет-бесплатной-справедливости", которые доказывают три фундаментальных ограничения в системах обучения. К ним относятся встроенные компромиссы между справедливостью и затратами, неизбежные расхождения в подгруппах в конечных выборках и ограничения выражаемости моделей, которые препятствуют справедливости независимо от данных. Результаты показывают, что справедливость ограничена структурой задачи, ограничениями данных и возможностями модели, а не только смещёнными данными.

arxiv arXiv cs.LG · 8 д назад

Метаклассификация одноклассовых моделей через ранжирование и ближайших соседей

В этой статье предложена методика метаклассификации одноклассовых классификаторов, при которой модели представляются в виде ранжирований нормальности и используются метрики корреляции ранжирований и ближайших соседей. Метод достигает высокой точности при классификации моделей на основе обучающих наборов данных, алгоритмов и гиперпараметров, и работает даже тогда, когда наборы данных имеют одинаковый класс. Метод эффективно классифицирует наборы данных, рассматривая несколько образцов как один вход, предлагая единое решение для моделей OCC, наборов данных и ранжирований.

arxiv arXiv cs.LG · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многослойную конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частот, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.LG · 8 д назад

BLITZ: быстрый и калиброванный непараметрический тест независимости условий

BLITZ представляет двухэтапный метод регрессии для непараметрического теста условной независимости. Сначала он удаляет широкие гладкие зависимости с помощью полиномиальной регрессии, затем применяет неглубокие деревянные регрессии для остаточного анализа нелинейных признаков, что позволяет проводить точные и быстрые тесты с улучшенной калибровкой нулевого распределения по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многоуровневую конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частоты, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 8 д назад

Безопасность и приватность в диалогах пользователей с LLM

Исследование 14 727 запросов по безопасности и приватности из 3,2 млн реальных диалогов пользователей с LLM выявляет девять категорий вопросов по безопасности и приватности. Тематический анализ и тестирование ответов показывают, что коммерческие LLM превосходят открытые модели, при этом GPT 5.5 обеспечивает хорошие ответы на 98% запросов, в то время как Llama 4 — на 47%, хотя некоторые коммерческие модели дают несогласованные ответы при повторных запусках.

arxiv arXiv cs.AI · 9 д назад

Первое доказательство, вторая партия: ИИ проверен на задачах исследовательского уровня математики

Исследование оценивало несколько систем ИИ на десяти задачах исследовательского уровня математики, созданных выдающимися математиками. Результаты включают решения, сгенерированные ИИ, решения людей и отчеты редакторов, что позволяет провести подробную оценку производительности ИИ при решении сложных математических задач.

arxiv arXiv cs.CL · 9 д назад

Могут ли языковые модели обнаружить ноль?

Языковые модели размера GPT-2 не могут независимо обнаружить ноль в процессе тестирования, независимо от предобучения. Однако производительность значительно улучшается при обучении на десятках до сотен примеров нуля, а предобучение на языке снижает количество необходимых примеров примерно на 50%.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 9 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 9 д назад

Концептуальная рамка оценки агентных навыков на масштабе

Мы предлагаем рамку оценки агентных навыков, при которой создаются реалистичные задачи и оцениваются полезность навыков путем выполнения задач. Применение к 500 реальным навыкам генерирует 1000 задач и критериев оценки, оценивая 19 конфигураций агент-моделей на проприетарных и открытых моделях. Результаты показывают значительные различия в соблюдении инструкций и росте производительности, при этом навыки существенно изменяют поведение моделей по сравнению с конфигурациями без навыков.

arxiv arXiv cs.CL · 9 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.

arxiv arXiv cs.CL · 9 д назад

Неположительное декодирование Эластичного сети для информационного поиска

Декодирование NNN выбирает документы как совокупность, которая совместно восстанавливает вектор запроса через разреженную неотрицательную линейную комбинацию. Оно строго расширяет плотное извлечение, обеспечивая обработку запросов, на которых плотное извлечение не справляется, особенно в корпусах с коррелированными документами, и достигает превосходной производительности за счет обучения векторов в конечном виде.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

arxiv arXiv cs.CL · 10 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.