Research paper — korshunov.ai

Тема · Research paper

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.AI · 2 д назад

Граф разностей для идентификации медицинских изображений с учетом анатомической структуры

Граф разностей (GoD) вводит представления анатомических графов для обеспечения идентификации медицинских изображений с явным структурным обоснованием. Он вычисляет разности между названными анатомическими областями и сопоставляет их с глобальными разностями в основной архитектуре, предоставляя клинически проверяемые, структурные объяснения. GoD повышает точность Rank-1 на 7,1 пункта для фундуса и на 3,1 пункта для рентгеновских снимков, демонстрируя лучшую производительность при нулевом обучении.

arxiv arXiv cs.AI · 2 д назад

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

Исследование сравнивает 2D и 3D диффузионные модели для генерации синтетических рентгеновских изображений. Оно показывает, что синтетические рентгеновские изображения, созданные на основе 2D диффузионных моделей, могут обучать ИИ-модели так же эффективно, как модели, обученные на реальных рентгеновских изображениях, предлагая жизнеспособный путь к созданию больших и разнообразных наборов данных без использования реальных данных пациентов.

arxiv arXiv cs.AI · 2 д назад

MIRCaps: масштабный многодоменный визуально-языковой датасет

MIRCaps представляет масштабный многомодальный датасет, содержащий 141 364 изображения, 981 947 описаний на уровне изображения, 1 742 264 описания на уровне регионов и 5 391 779 аннотаций bounding box. Он обеспечивает детальное обучение визуально-языковых моделей за счёт подробных описаний для категорий объектов, их размеров, цветов, действий и контекста окружающей среды, и демонстрирует эффективность в задачах генерации описаний изображений и обнаружения объектов.

arxiv arXiv cs.AI · 2 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Групповое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на блоки, связанные иерархически, и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.AI · 2 д назад

JS-Разделение улучшает ауторегрессивную альignment текста-изображения в GRPO

Исследование вводит JS-разделение в постобучивании GRPO-стиля, демонстрируя, что оно сбалансирует оптимизацию политики и разнообразие генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или сильных результатов по оценочным метрикам, сохраняя разнообразие выходов.

media Hugging Face Forums · 2 д назад

Просьба о поддержке arXiv cs.LG для оптимизатора PsiLogic

Али, независимый исследователь 16 лет, разработал PsiLogic — активный оптимизатор с учетом хаоса, основанный на Adam. При оценке против AdamW и Lion с использованием FairBench на NVIDIA H100, PsiLogic достиг лучших показателей валидации на трёх из четырёх задач и статистически равен по четвёртой, хотя и имеет избыточное время шага. Автор просит поддержку для подачи в arXiv под разделом cs.LG, предоставив репозиторий на GitHub и код подтверждения 4ACC37.

media r/LocalLLaMA · 2 д назад

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

media r/LocalLLaMA · 2 д назад

Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Новый микробенчмарк LLM оценивает, насколько хорошо большие языковые модели могут моделировать границы твердого и жидкого вещества с использованием Surface Evolver, инструмента 1992 года для моделирования поверхностей жидкости. Бенчмарк требует от LLM написать файлы данных SE, определяющие геометрию и ограничения, через итеративный агентский процесс с объективной оценкой, предлагая специфическую задачу с реальной научной значимостью и редкими обучающими данными.

arxiv arXiv cs.CL · 2 д назад

Оценка важности предикатов и декуплированная дистилляция обоснований-оценок для сопоставления сущностей

Новая методика улучшает сопоставление сущностей в графах знаний за счёт введения оценки важности предикатов и декуплированной дистилляции обоснований-оценок. Эти модули повышают точность классификации и позволяют валидацию с участием человека за счёт обнаружения неопределённых предсказаний при помощи декуплированной оценки уверенности.

arxiv arXiv cs.CL · 2 д назад

Уровень сущности в выявлении членства через интервью с LLM

Исследователи предлагают уровень сущности в выявлении членства для определения того, было ли в процессе обучения LLM вынуждено обрабатывать информацию о реальной сущности. С помощью построения запросов с ограниченными подсказками по сущности и анализа семантических признаков в полученных ответах, их пять стратегий интервью достигают до 0,97 AUC и улучшают сбалансированную точность на 6,0%–17,5% по сравнению с адаптированными базовыми моделями на сущностях человека.

arxiv arXiv cs.CL · 2 д назад

Панель языковых моделей для измерения политических позиций в регионах с редкими данными

Новый метод использует большие языковые модели как недостаточные оценщики в панели для измерения политических позиций в регионах с редкими данными. Добавление письменных определений осей улучшает согласованность и согласие оценщиков, при этом Krippendorff's alpha в размере 0,86 указывает на высокую надежность между моделями и лабораториями. Разногласия выявляют интерпретационные проблемы, что свидетельствует о том, что метод выявляет проблемы с референтами, а не ошибки измерения.

arxiv arXiv cs.CL · 2 д назад

Владение рекомендациями ИИ: эмпирическая карта владения брендами в категории

Исследование 3750 запросов в пяти отраслях показало умеренную концентрацию рекомендаций, с средним коэффициентом Гини в 0,28. Согласие между моделями по рекомендованным брендам составило только 41,6%, а показатели смещения варьировались в зависимости от отрасли, от 0,4:1 до 4,3:1. Результаты противоречат концепции «победитель получает всё» и вводят три воспроизводимых метрики для анализа конкуренции.

media Hugging Face Forums · 2 д назад

Самые интересные теоретические темы ИИ с реальной базой ИИ-систем

Разговор охватывает теоретические темы ИИ, имеющие математические основания и возможность реализации в современных ИИ-системах, таких как большие языковые модели. Темы включают цепочки рассуждений, графы знаний и вероятностное рассуждение, все из которых основаны на формальной математике и демонстрируют потенциал для реальных применений в ИИ.

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Совмещение LLM с использованием скрытой обратной связи пользователя

Совмещение LLM с использованием скрытой обратной связи пользователя

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

Падение и восстановление точности маршрутизации в системах агентов предприятий

Граф разностей для идентификации медицинских изображений с учетом анатомической структуры

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

MIRCaps: масштабный многодоменный визуально-языковой датасет

Глубокое обучение с параллельной временной сложностью O(log N)

JS-Разделение улучшает ауторегрессивную альignment текста-изображения в GRPO

Просьба о поддержке arXiv cs.LG для оптимизатора PsiLogic

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Оценка важности предикатов и декуплированная дистилляция обоснований-оценок для сопоставления сущностей

Уровень сущности в выявлении членства через интервью с LLM

Панель языковых моделей для измерения политических позиций в регионах с редкими данными

Владение рекомендациями ИИ: эмпирическая карта владения брендами в категории

Самые интересные теоретические темы ИИ с реальной базой ИИ-систем