Тема · Research paper
lab Microsoft Research Blog · 14 ч назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

media Hugging Face Forums · 1 д назад

Нативные бинарные векторы превосходят пост-последовательную бинаризацию

Малый эксперимент показывает, что нативные бинарные модели векторов обеспечивают лучшую рекомендацию по сравнению с пост-последовательной бинаризацией моделей с плавающей точкой. На SciFact Recall@10 нативные бинарные модели (2048-мерные и 4096-мерные) превосходят пост-последовательные бинарные модели на 17% и 25% соответственно, с существенными преимуществами по скорости и памяти при индексировании.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.AI · 15 ч назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 16 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 16 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 17 ч назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 17 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

arxiv arXiv cs.AI · 17 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 17 ч назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 17 ч назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в игре Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.LG · 17 ч назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает проблемы низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь реконструкции. Оно интегрирует обучение оценок с краткосрочной оценкой и предсказанием следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения в различных областях.

arxiv arXiv cs.LG · 17 ч назад

MedTS-TTT: обучение в процессе тестирования для медицинских временных рядов

MedTS-TTT представляет рамку обучения в процессе тестирования для классификации медицинских временных рядов. Основан на CLSA-TTT и гатерной конволюционной архитектуре, она обеспечивает быстрое, одношаговое адаптация без итеративной оптимизации. На четырех публичных наборах данных она достигает 11 из 12 лучших результатов при оценке девяти базовых моделей и трёх метрик.

media r/LocalLLaMA · 17 ч назад

KaLM-Reranker-V1: Быстрый и эффективный переупорядочиватель документов

KaLM-Reranker-V1 — это быстрый, но не последовательный переупорядочиватель, который разделяет вычисление запроса и прохода, при этом сохраняя сильную модель соответствия через перекрестное внимание. Он достигает наилучших результатов на BEIR, превосходит промышленные модели, такие как Qwen3-Reranker, и показывает отличные результаты на MIRACL и LMEB, при этом нано-модель 0.27B остаётся конкурентоспособной по отношению к моделям на 7-12 миллиардов параметров.

arxiv arXiv cs.LG · 18 ч назад

Ремонт графа Рамануя снижает перенасыщение в ГНН

Метод Рамануя распространения использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях, обеспечивая ненулевую кривизну сопротивления. Метод сохраняет локальную связность, обеспечивая эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.