Тема · Research paper
media Hugging Face Forums · 1 д назад

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.LG · 22 ч назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 22 ч назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 22 ч назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.CL · 23 ч назад

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

AI-PAVE-Br использует большие языковые модели для улучшения извлечения значений атрибутов продуктов в бразильском электронном коммерции. Система превосходит традиционные методы распознавания сущностей, при этом новый набор Golden Set предоставляет ручно аннотированный стандарт для португальских данных о продуктах.

arxiv arXiv cs.CL · 23 ч назад

DREAM: авторегрессивное обучение для плотных векторов поиска

DREAM использует авторегрессивную предсказание следующего токена для контроля процесса обучения векторов поиска. В него вводятся оценки сходства запроса-документа в внимательные головы замороженной языковой модели, что позволяет проводить обратное распространение градиентов для оптимизации поискового модуля. DREAM превосходит базовые методы на тестах BEIR и RTEB при различных масштабах моделей.

arxiv arXiv cs.CL · 1 д назад

CANDLE: Легкая дедупликация шумов на арабском языке с использованием CTC

CANDLE — это легкая система, которая использует Connectionist Temporal Classification для устранения дублирования повторяющихся символов в арабском тексте, не используя ручно разработанные правила или морфологические анализаторы. Система достигает ошибки в предложении 5,37% и снижает плотность токенизатора на 12,8%, что уменьшает затраты на инференс и улучшает использование контекстного окна.

arxiv arXiv cs.CL · 1 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 1 д назад

L3Cube-MahaPOS: датасет маратхи и модели BERT

L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.

arxiv arXiv cs.CL · 1 д назад

Выбор обучающих данных с учетом качества для научного синтеза

Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.

arxiv arXiv cs.CL · 1 д назад

PORTER: Языково-обоснованные представления событий для портативных фундаментальных моделей электронных медицинских записей

PORTER представляет структурированную фундаментальную модель электронных медицинских записей, основанную на языке, которая описывает клинические события через описания, а не через фиксированные словари. Оно достигает превосходных результатов на 74 задачах прогнозирования для детей и эффективно переносится на новые словари без переобучения, восстанавливая 97,1% целевых AUROC и превосходя модели на основе фиксированных словарей на MIMIC, при вычислительной нагрузке в 329 раз ниже, чем у подходов на основе сериализации текста.

arxiv arXiv cs.CL · 1 д назад

Ошибки калибровки LoRA Monitor при использовании Top-1 в диффузионных языковых моделях

Сбои в концентрации аргмакса Top-1 выступают в качестве предупреждения о коллапсе в диффузионных языковых моделях, оптимизированных с помощью LoRA, и показывают нулевую точность при 816 конфигурациях. Максимальная норма градиента LoRA превосходит этот базовый вариант, достигая точности 0,68 и F1 0,79 на отложенной выборке LLaDA, хотя результаты ограничены короткими горизонтами и специфическими семействами.

arxiv arXiv cs.CL · 1 д назад

Целостный планировщик данных для предобучения языковых моделей с использованием многокритериального обучения с помощью реверсного обучения

HDS представляет многокритериальную систему обучения с помощью реверсного обучения для онлайн-смешивания данных в предобучении языковых моделей. Он достигает на 44% меньше итераций обучения на бенчмарке The Pile и улучшает производительность MMLU в режиме 0-шотов на 7,2%, с устойчивыми результатами на других бенчмарках.

arxiv arXiv cs.CL · 1 д назад

InterAligner: прогрессивная синхронизация для аудио-распознавания

InterAligner вводит промежуточную цель синхронизации и потерю InterCTC для обеспечения прогрессивной синхронизации в глубоких моделях аудио-распознавания. На LibriSpeech с конформером из 17 слоев, оно снижает WER с 5,0/7,8 до 3,1/5,6, обеспечивая значительное улучшение на длинных фразах.