Тема · Research paper
media Hugging Face Forums · 1 д назад

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.AI · 17 ч назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 17 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

arxiv arXiv cs.AI · 17 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 17 ч назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 17 ч назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в игре Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.LG · 18 ч назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает проблемы низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь реконструкции. Оно интегрирует обучение оценок с краткосрочной оценкой и предсказанием следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения в различных областях.

arxiv arXiv cs.LG · 18 ч назад

MedTS-TTT: обучение в процессе тестирования для медицинских временных рядов

MedTS-TTT представляет рамку обучения в процессе тестирования для классификации медицинских временных рядов. Основан на CLSA-TTT и гатерной конволюционной архитектуре, она обеспечивает быстрое, одношаговое адаптация без итеративной оптимизации. На четырех публичных наборах данных она достигает 11 из 12 лучших результатов при оценке девяти базовых моделей и трёх метрик.

media r/LocalLLaMA · 18 ч назад

KaLM-Reranker-V1: Быстрый и эффективный переупорядочиватель документов

KaLM-Reranker-V1 — это быстрый, но не последовательный переупорядочиватель, который разделяет вычисление запроса и прохода, при этом сохраняя сильную модель соответствия через перекрестное внимание. Он достигает наилучших результатов на BEIR, превосходит промышленные модели, такие как Qwen3-Reranker, и показывает отличные результаты на MIRACL и LMEB, при этом нано-модель 0.27B остаётся конкурентоспособной по отношению к моделям на 7-12 миллиардов параметров.

arxiv arXiv cs.LG · 19 ч назад

Ремонт графа Рамануя снижает перенасыщение в ГНН

Метод Рамануя распространения использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях, обеспечивая ненулевую кривизну сопротивления. Метод сохраняет локальную связность, обеспечивая эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.LG · 19 ч назад

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 19 ч назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 19 ч назад

Функциональная ортогональность обеспечивает идентифицируемость в непеременной дисентанглменте

В статье доказывается, что локально ортогональные направления в генеративных моделях гарантируют идентифицируемость скрытых факторов без необходимости в статистической независимости или касательных предположениях. Эксперименты с ортогонально регулируемыми нормализующими потоками подтверждают надежное восстановление истинных скрытых факторов, что оспаривает ранее сформулированные утверждения о невозможности непеременной дисентанглменты.

arxiv arXiv cs.LG · 20 ч назад

Общие кодеры для модульного реляционного глубокого обучения

В статье предложена модульная реляционная модель глубокого обучения, которая разделяет кодирование строк на передачу сообщений в графе. Вводится трансформер-базированный универсальный кодер строк, который использует метаданные схемы для генерации инвариантных векторов строк, что позволяет улучшить обобщение на разных базах данных и ускорить сходимость на бенчмарках RelBench.