Тема · Research paper
media Hugging Face Forums · 2 д назад

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 1 д назад

Постер: Исследование обнаружения мошеннических звонков на основе аудио в турецком

Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.

arxiv arXiv cs.CL · 1 д назад

AdversaBench: автоматизированная проверка уязвимостей больших языковых моделей с подтверждением несколькими судьями

AdversaBench представляет полную цепочку проверки уязвимостей, которая генерирует враждебные запросы с помощью пяти структурированных операторов, оценивает целевые модели и подтверждает сбои с помощью трех судей с метасудьей в качестве разрешения споров. Эксперименты по 45 исходным запросам в областях логического мышления, выполнения инструкций и использования инструментов показывают, что каждый исходный запрос приводит к подтвержденному сбою, при этом эффективность операторов, количество итераций сбоев, согласие судей и переносимость сбоев между моделями выявляют ключевые паттерны уязвимости больших языковых моделей.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.CL · 1 д назад

SIFT и WSP повышают точность проверки фактов

SIFT вводит пересчет доказательств по условию утверждения для лучшего соответствия полному утверждениям, восстанавливая до 27,6 баллов в точности на FEVER, SciFact, 5PILS и DP. WSP, автоматическая проверка логической связи, достигает AUC 0,92 и точности 0,98 при калибровке по человеческим эталонным доказательствам.

arxiv arXiv cs.AI · 1 д назад

MedLayXPlain: Оценка разрыва между экспертами и обычными людьми в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинской повседневной речи, включающий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские визуально-языковые модели по согласованию между экспертами и обычными людьми с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности в описании изображений сопровождается значительным снижением в повседневной речи, при этом общецелевые модели не обладают клинической точностью.

arxiv arXiv cs.AI · 1 д назад

QBioFusion-QSAR: квантовое ядро обучения для классификации лигандов на малом объёме данных

QBioFusion-QSAR интегрирует квантовое ядро фиделитета с отпечатками Моргана/Танимото для улучшения классификации лигандов. На бенчмарке PsychLight-A квантовое ядро (QMKL) повысило точность и MCC по сравнению с Морганом/Танимото в отдельности, улучшения объясняются более точными предсказаниями молекул с краями активности, такими как N-Me-5-HT и N-Me-tryptamine. Аудиторный анализ подтверждает локализованные вклады квантового ядра в условиях малого объёма данных.

arxiv arXiv cs.AI · 1 д назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.AI · 1 д назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает задачу низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь восстановления по измерениям. Фреймворк объединяет обучение оценок с короткосрочным предсказанием оценок и следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения по сравнению с существующими методами.

arxiv arXiv cs.AI · 1 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 1 д назад

Ремонт графа Рамануя уменьшает перенасыщение в ГНН

Метод Рамануя использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях за счет обеспечения неотрицательной кривизны сопротивления. Метод сохраняет локальную связность, при этом обеспечивает эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.AI · 1 д назад

SOHET: Самосупервизированный трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированных предобученных целей. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и обеспечивает более быструю сходимость с дополнительным приростом в 2,4% за счет предобучения. На бенчмарке EBES, двунаправленный SOHET достигает или превосходит лучшие опубликованные результаты на шести из восьми задач.

arxiv arXiv cs.AI · 1 д назад

Граф разностей для идентификации медицинских изображений с учетом анатомической структуры

Граф разностей (GoD) вводит представления анатомических графов для обеспечения идентификации медицинских изображений с явным структурным обоснованием. Он вычисляет разности между названными анатомическими областями и сопоставляет их с глобальными разностями в основной архитектуре, предоставляя клинически проверяемые, структурные объяснения. GoD повышает точность Rank-1 на 7,1 пункта для фундуса и на 3,1 пункта для рентгеновских снимков, демонстрируя лучшую производительность при нулевом обучении.

arxiv arXiv cs.AI · 1 д назад

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

Исследование сравнивает 2D и 3D диффузионные модели для генерации синтетических рентгеновских изображений. Оно показывает, что синтетические рентгеновские изображения, созданные на основе 2D диффузионных моделей, могут обучать ИИ-модели так же эффективно, как модели, обученные на реальных рентгеновских изображениях, предлагая жизнеспособный путь к созданию больших и разнообразных наборов данных без использования реальных данных пациентов.