Все статьи
arxiv arXiv cs.AI · 4 ч назад

Справедливая оценка графовых фундаментальных моделей для предсказания свойств узлов

В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, сравнивая их с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы устранить отсутствие единых стандартов оценки в этой области.

arxiv arXiv cs.AI · 4 ч назад

RaDaR: специализированная LLM для рассуждений, ускоряющая диагностику редких заболеваний

Исследователи представляют RaDaR — открытую 32B параметр reasoning large language model, предназначенную для ускорения диагностики редких заболеваний за счет решения проблем клинической внедряемости и нехватки данных. Модель обучена на почти 50 000 публичных случаях и более чем 100 000 синтетических случаев, демонстрируя превосходные результаты по бенчмаркам и во внешних валидационных центрах.

arxiv arXiv cs.AI · 4 ч назад

Обучение с подкреплением для агентов управления компьютером с автономной оценкой

Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.

arxiv arXiv cs.AI · 4 ч назад

AdversaBench: Автоматизированное красное тестирование LLM с подтверждением многосудейской панели и переносимостью между моделями

Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.

blog Simon Willison · 4 ч назад

Ornith-1.0: Самоструктурирующиеся LLM для агентного программирования

DeepReinforce выпустила Ornith-1.0, модель с открытыми весами под лицензией MIT, которая демонстрирует лучшие результаты среди моделей с открытым исходным кодом сопоставимого размера на бенчмарках по программированию. Модель построена на базе предварительно обученных Gemma 4 и Qwen 3.5 и включает варианты с количеством параметров: 9B Dense, 31B Dense, 35B MoE и 397B MoE.

media r/LocalLLaMA · 4 ч назад

Статья на arXiv задержана на 2 месяца.

Исследователь, подающий свою первую статью в arXiv, сообщает, что рукопись находится на рассмотрении модераторов уже два месяца, несмотря на прохождение автоматических проверок квалификации. Автор спрашивает, является ли такая задержка нормальной, и просит совета: стоит ли подавать работу повторно или продолжать ждать.

arxiv arXiv cs.AI · 5 ч назад

Постер: Исследование пределов обнаружения турецких телефонных мошеннических звонков на основе аудио

Данное исследование изучает использование больших языковых моделей для обнаружения мошеннических телефонных звонков на турецком языке — языке с низким уровнем ресурсности, где аннотированные данные отсутствуют.

arxiv arXiv cs.AI · 5 ч назад

Управляемая разделяемая память для многоагентных LLM-систем

В данной работе формализуется проблема fleet-memory в средах с множеством агентов на базе LLM, выделяются четыре фундаментальных режима отказа: несанкционированная утечка, распространение устаревших данных, персистентность противоречий и коллапс происхождения. Для решения этих проблем авторы определяют явные примитивы системного уровня, включая ограниченный поиск, временное замещение, отслеживание происхождения и управление распространением памяти на основе политик.

arxiv arXiv cs.AI · 5 ч назад

Квантовая конвергенция: соединение классического стоимостного инвестирования и современных факторных моделей

Это исследование проверяет, могут ли классические правила стоимостного инвестирования Бенджамина Грэма действовать как математический фильтр для предотвращения запоминания рыночного шума сложными моделями машинного обучения. В исследовании сравниваются чистые правила Грэма, современные факторы и их комбинация с моделями XGBoost и AutoGluon на основе 20-летних данных индекса S&P 500.

arxiv arXiv cs.AI · 5 ч назад

Избыточное отказоустойчивость малых локальных LLM в контексте уголовного права

Исследование изучает влияние избыточных отказов на малые, встроенные языковые модели при обработке юридических запросов, выявляя, что префиксы авторитетного стиля систематически увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса. В то время как префиксы взлома через ролевую игру показали смешанные эффекты на разных моделях, результаты указывают на то, что эти малые LLM нестабильны при контекстуальных обрамлениях, типичных для реальных институциональных пользователей.

arxiv arXiv cs.AI · 5 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

media r/LocalLLaMA · 5 ч назад

Двойной GPU: Параллелизм важнее размера модели для локальных LLM

Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.

media r/LocalLLaMA · 5 ч назад

Предложение единого открытого датасета вместо децентрализованного обучения LLM

Автор утверждает, что сообщество с открытым исходным кодом должно приоритизировать создание массивного высококачественного датасета для предварительного обучения, а не пытаться координировать децентрализованное обучение LLM на домашних GPU. Этот сдвиг представлен как более практичный и немедленный ответ на недавние правительственные запреты на коммерческие фронтьерные модели и нехватку релизов открытых весов малого и среднего размера.

media r/LocalLLaMA · 5 ч назад

GPU Bolt Graphics будет оснащен двумя слотами DDR5 для ноутбуков

Bolt Graphics разрабатывает GPU, включающий два слота DDR5 SODIMM для памяти переполнения, с целью начать полное производство к Рождеству 2027 года. У компании есть работающие прототипы, и она нацелена на создателей контента как на первоначальную аудиторию.

arxiv arXiv cs.AI · 6 ч назад

Прогнозирование прогрессирования болезни Альцгеймера с учетом неопределенности на основе глубокого обучения

В данном исследовании предлагается вероятностная модель для лонгитюдного моделирования прогрессирования болезни Альцгеймера, которая объединяет предсказание порядкового диагноза, генерацию траекторий с несколькими горизонтами и декомпозицию оценки неопределенности. Подход использует кодировщик Temporal Fusion Transformer и авторегрессионную смесевую плотностную сеть (Mixture Density Network) для генерации вероятностных траекторий на пять лет вперед, одновременно оценивая как алеаторную, так и эпистемическую неопределенность.

arxiv arXiv cs.AI · 6 ч назад

ScaleToT: Обобщение структурированного рассуждения LLM для моделирования пользователей с низкой активностью в масштабе миллиардов

В статье представлена методика ScaleToT, которая обучается структурированному рассуждению на небольшой подвыборке пользователей и распространяет его на миллиарды пользователей с низкой активностью и разреженными профилями. Она объединяет уточнение Tree-of-Thought (ToT) с ограниченной энтропией, управляемое направляющей функцией, с обучением с учителем (SFT) и оптимизацией политики вознаграждения для передачи способностей к рассуждению без полного вывода LLM.

arxiv arXiv cs.AI · 6 ч назад

Абстракции запросов в доступе к данным на основе онтологий

В этой статье рассматривается абстракция запросов в доступе к данным на основе онтологий (OBDA) путем преобразования запросов к данным на уровень онтологии с использованием экзистенциальных правил и семантики определенных ответов.