Research paper — korshunov.ai

Тема · Research paper

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.LG · 22 ч назад

Ремонт графа Рамануя снижает перенасыщение в ГНН

Метод Рамануя распространения использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях, обеспечивая ненулевую кривизну сопротивления. Метод сохраняет локальную связность, обеспечивая эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.LG · 22 ч назад

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 22 ч назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 23 ч назад

Функциональная ортогональность обеспечивает идентифицируемость в непеременной дисентанглменте

В статье доказывается, что локально ортогональные направления в генеративных моделях гарантируют идентифицируемость скрытых факторов без необходимости в статистической независимости или касательных предположениях. Эксперименты с ортогонально регулируемыми нормализующими потоками подтверждают надежное восстановление истинных скрытых факторов, что оспаривает ранее сформулированные утверждения о невозможности непеременной дисентанглменты.

arxiv arXiv cs.LG · 23 ч назад

Общие кодеры для модульного реляционного глубокого обучения

В статье предложена модульная реляционная модель глубокого обучения, которая разделяет кодирование строк на передачу сообщений в графе. Вводится трансформер-базированный универсальный кодер строк, который использует метаданные схемы для генерации инвариантных векторов строк, что позволяет улучшить обобщение на разных базах данных и ускорить сходимость на бенчмарках RelBench.

arxiv arXiv cs.LG · 1 д назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 1 д назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.CL · 1 д назад

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

AI-PAVE-Br использует большие языковые модели для улучшения извлечения значений атрибутов продуктов в бразильском электронном коммерции. Система превосходит традиционные методы распознавания сущностей, при этом новый набор Golden Set предоставляет ручно аннотированный стандарт для португальских данных о продуктах.

arxiv arXiv cs.CL · 1 д назад

DREAM: авторегрессивное обучение для плотных векторов поиска

DREAM использует авторегрессивную предсказание следующего токена для контроля процесса обучения векторов поиска. В него вводятся оценки сходства запроса-документа в внимательные головы замороженной языковой модели, что позволяет проводить обратное распространение градиентов для оптимизации поискового модуля. DREAM превосходит базовые методы на тестах BEIR и RTEB при различных масштабах моделей.

arxiv arXiv cs.CL · 1 д назад

CANDLE: Легкая дедупликация шумов на арабском языке с использованием CTC

CANDLE — это легкая система, которая использует Connectionist Temporal Classification для устранения дублирования повторяющихся символов в арабском тексте, не используя ручно разработанные правила или морфологические анализаторы. Система достигает ошибки в предложении 5,37% и снижает плотность токенизатора на 12,8%, что уменьшает затраты на инференс и улучшает использование контекстного окна.

arxiv arXiv cs.CL · 1 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 1 д назад

L3Cube-MahaPOS: датасет маратхи и модели BERT

L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Совмещение LLM с использованием скрытой обратной связи пользователя

Совмещение LLM с использованием скрытой обратной связи пользователя

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

Падение и восстановление точности маршрутизации в системах агентов предприятий

Ремонт графа Рамануя снижает перенасыщение в ГНН

SOHET: трансформатор для гетерогенных потоков событий

Граф разностей для анатомически структурированной медицинской идентификации

Функциональная ортогональность обеспечивает идентифицируемость в непеременной дисентанглменте

Общие кодеры для модульного реляционного глубокого обучения

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Глубокое обучение с параллельной временной сложностью O(log N)

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

DREAM: авторегрессивное обучение для плотных векторов поиска

CANDLE: Легкая дедупликация шумов на арабском языке с использованием CTC

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

L3Cube-MahaPOS: датасет маратхи и модели BERT