Тема · Research paper
media Hugging Face Forums · 2 д назад

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 1 д назад

Выбор обучающих данных с учетом качества для научного синтеза

Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.

arxiv arXiv cs.CL · 1 д назад

PORTER: Языково-обоснованные представления событий для портативных фундаментальных моделей электронных медицинских записей

PORTER представляет структурированную фундаментальную модель электронных медицинских записей, основанную на языке, которая описывает клинические события через описания, а не через фиксированные словари. Оно достигает превосходных результатов на 74 задачах прогнозирования для детей и эффективно переносится на новые словари без переобучения, восстанавливая 97,1% целевых AUROC и превосходя модели на основе фиксированных словарей на MIMIC, при вычислительной нагрузке в 329 раз ниже, чем у подходов на основе сериализации текста.

arxiv arXiv cs.CL · 1 д назад

Ошибки калибровки LoRA Monitor при использовании Top-1 в диффузионных языковых моделях

Сбои в концентрации аргмакса Top-1 выступают в качестве предупреждения о коллапсе в диффузионных языковых моделях, оптимизированных с помощью LoRA, и показывают нулевую точность при 816 конфигурациях. Максимальная норма градиента LoRA превосходит этот базовый вариант, достигая точности 0,68 и F1 0,79 на отложенной выборке LLaDA, хотя результаты ограничены короткими горизонтами и специфическими семействами.

arxiv arXiv cs.CL · 1 д назад

Целостный планировщик данных для предобучения языковых моделей с использованием многокритериального обучения с помощью реверсного обучения

HDS представляет многокритериальную систему обучения с помощью реверсного обучения для онлайн-смешивания данных в предобучении языковых моделей. Он достигает на 44% меньше итераций обучения на бенчмарке The Pile и улучшает производительность MMLU в режиме 0-шотов на 7,2%, с устойчивыми результатами на других бенчмарках.

arxiv arXiv cs.CL · 1 д назад

InterAligner: прогрессивная синхронизация для аудио-распознавания

InterAligner вводит промежуточную цель синхронизации и потерю InterCTC для обеспечения прогрессивной синхронизации в глубоких моделях аудио-распознавания. На LibriSpeech с конформером из 17 слоев, оно снижает WER с 5,0/7,8 до 3,1/5,6, обеспечивая значительное улучшение на длинных фразах.

arxiv arXiv cs.CL · 1 д назад

BehaviorBench запускает бенчмарк для поведенческих ИИ-моделей

BehaviorBench представляет всесторонний бенчмарк для оценки фундаментальных моделей по четырем способностям поведенческой науки: прогнозированию поведения, стратегическому принятию решений, инференции характеристик субъекта и применению знаний. Он оценивает модели на индивидуальном и распределенном уровнях, показывая, что поведенческие фундаментальные модели, такие как Be.FM-1.5, достигают более сильной распределенной синхронизации, чем общецелевые модели, что подчеркивает необходимость оценки на распределенном уровне в поведенческой ИИ.

arxiv arXiv cs.CL · 1 д назад

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

CORE-BREW вводит метод мягкой декодировки, использующий калиброванные лог-вероятностные отношения, для обеспечения устойчивой многоразрядной вставки водяных знаков в LLM. Он достигает стабильных показателей выявления и улучшенного контроля ложноположительных результатов за счет строгих и калиброванных по FPR режимов обнаружения, превосходя предыдущие базовые решения при редактировании на уровне токенов и переформулировании, при этом сохраняя семантическое качество.

arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.