Research paper — korshunov.ai

Тема · Research paper

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.AI · 2 д назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает задачу низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь восстановления по измерениям. Фреймворк объединяет обучение оценок с короткосрочным предсказанием оценок и следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения по сравнению с существующими методами.

arxiv arXiv cs.AI · 2 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 2 д назад

Ремонт графа Рамануя уменьшает перенасыщение в ГНН

Метод Рамануя использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях за счет обеспечения неотрицательной кривизны сопротивления. Метод сохраняет локальную связность, при этом обеспечивает эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.AI · 2 д назад

SOHET: Самосупервизированный трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированных предобученных целей. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и обеспечивает более быструю сходимость с дополнительным приростом в 2,4% за счет предобучения. На бенчмарке EBES, двунаправленный SOHET достигает или превосходит лучшие опубликованные результаты на шести из восьми задач.

arxiv arXiv cs.AI · 2 д назад

Граф разностей для идентификации медицинских изображений с учетом анатомической структуры

Граф разностей (GoD) вводит представления анатомических графов для обеспечения идентификации медицинских изображений с явным структурным обоснованием. Он вычисляет разности между названными анатомическими областями и сопоставляет их с глобальными разностями в основной архитектуре, предоставляя клинически проверяемые, структурные объяснения. GoD повышает точность Rank-1 на 7,1 пункта для фундуса и на 3,1 пункта для рентгеновских снимков, демонстрируя лучшую производительность при нулевом обучении.

arxiv arXiv cs.AI · 2 д назад

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

Исследование сравнивает 2D и 3D диффузионные модели для генерации синтетических рентгеновских изображений. Оно показывает, что синтетические рентгеновские изображения, созданные на основе 2D диффузионных моделей, могут обучать ИИ-модели так же эффективно, как модели, обученные на реальных рентгеновских изображениях, предлагая жизнеспособный путь к созданию больших и разнообразных наборов данных без использования реальных данных пациентов.

arxiv arXiv cs.AI · 2 д назад

MIRCaps: масштабный многодоменный визуально-языковой датасет

MIRCaps представляет масштабный многомодальный датасет, содержащий 141 364 изображения, 981 947 описаний на уровне изображения, 1 742 264 описания на уровне регионов и 5 391 779 аннотаций bounding box. Он обеспечивает детальное обучение визуально-языковых моделей за счёт подробных описаний для категорий объектов, их размеров, цветов, действий и контекста окружающей среды, и демонстрирует эффективность в задачах генерации описаний изображений и обнаружения объектов.

arxiv arXiv cs.AI · 2 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Групповое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на блоки, связанные иерархически, и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.AI · 2 д назад

JS-Разделение улучшает ауторегрессивную альignment текста-изображения в GRPO

Исследование вводит JS-разделение в постобучивании GRPO-стиля, демонстрируя, что оно сбалансирует оптимизацию политики и разнообразие генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или сильных результатов по оценочным метрикам, сохраняя разнообразие выходов.

media Hugging Face Forums · 2 д назад

Просьба о поддержке arXiv cs.LG для оптимизатора PsiLogic

Али, независимый исследователь 16 лет, разработал PsiLogic — активный оптимизатор с учетом хаоса, основанный на Adam. При оценке против AdamW и Lion с использованием FairBench на NVIDIA H100, PsiLogic достиг лучших показателей валидации на трёх из четырёх задач и статистически равен по четвёртой, хотя и имеет избыточное время шага. Автор просит поддержку для подачи в arXiv под разделом cs.LG, предоставив репозиторий на GitHub и код подтверждения 4ACC37.

media r/LocalLLaMA · 2 д назад

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

media r/LocalLLaMA · 2 д назад

Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Новый микробенчмарк LLM оценивает, насколько хорошо большие языковые модели могут моделировать границы твердого и жидкого вещества с использованием Surface Evolver, инструмента 1992 года для моделирования поверхностей жидкости. Бенчмарк требует от LLM написать файлы данных SE, определяющие геометрию и ограничения, через итеративный агентский процесс с объективной оценкой, предлагая специфическую задачу с реальной научной значимостью и редкими обучающими данными.

arxiv arXiv cs.CL · 2 д назад

Оценка важности предикатов и декуплированная дистилляция обоснований-оценок для сопоставления сущностей

Новая методика улучшает сопоставление сущностей в графах знаний за счёт введения оценки важности предикатов и декуплированной дистилляции обоснований-оценок. Эти модули повышают точность классификации и позволяют валидацию с участием человека за счёт обнаружения неопределённых предсказаний при помощи декуплированной оценки уверенности.

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Совмещение LLM с использованием скрытой обратной связи пользователя

Совмещение LLM с использованием скрытой обратной связи пользователя

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

Падение и восстановление точности маршрутизации в системах агентов предприятий

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

Модель социального мира для долгосрочной социальной интеллектуальности

Ремонт графа Рамануя уменьшает перенасыщение в ГНН

SOHET: Самосупервизированный трансформатор для гетерогенных потоков событий

Граф разностей для идентификации медицинских изображений с учетом анатомической структуры

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

MIRCaps: масштабный многодоменный визуально-языковой датасет

Глубокое обучение с параллельной временной сложностью O(log N)

JS-Разделение улучшает ауторегрессивную альignment текста-изображения в GRPO

Просьба о поддержке arXiv cs.LG для оптимизатора PsiLogic

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Оценка важности предикатов и декуплированная дистилляция обоснований-оценок для сопоставления сущностей