Все статьи
blog Simon Willison · 5 ч назад

Ornith-1.0: Самоструктурирующиеся LLM для агентного программирования

DeepReinforce выпустила Ornith-1.0, модель с открытыми весами под лицензией MIT, которая демонстрирует лучшие результаты среди моделей с открытым исходным кодом сопоставимого размера на бенчмарках по программированию. Модель построена на базе предварительно обученных Gemma 4 и Qwen 3.5 и включает варианты с количеством параметров: 9B Dense, 31B Dense, 35B MoE и 397B MoE.

media r/LocalLLaMA · 5 ч назад

Статья на arXiv задержана на 2 месяца.

Исследователь, подающий свою первую статью в arXiv, сообщает, что рукопись находится на рассмотрении модераторов уже два месяца, несмотря на прохождение автоматических проверок квалификации. Автор спрашивает, является ли такая задержка нормальной, и просит совета: стоит ли подавать работу повторно или продолжать ждать.

arxiv arXiv cs.AI · 6 ч назад

Постер: Исследование пределов обнаружения турецких телефонных мошеннических звонков на основе аудио

Данное исследование изучает использование больших языковых моделей для обнаружения мошеннических телефонных звонков на турецком языке — языке с низким уровнем ресурсности, где аннотированные данные отсутствуют.

arxiv arXiv cs.AI · 6 ч назад

Управляемая разделяемая память для многоагентных LLM-систем

В данной работе формализуется проблема fleet-memory в средах с множеством агентов на базе LLM, выделяются четыре фундаментальных режима отказа: несанкционированная утечка, распространение устаревших данных, персистентность противоречий и коллапс происхождения. Для решения этих проблем авторы определяют явные примитивы системного уровня, включая ограниченный поиск, временное замещение, отслеживание происхождения и управление распространением памяти на основе политик.

arxiv arXiv cs.AI · 6 ч назад

Квантовая конвергенция: соединение классического стоимостного инвестирования и современных факторных моделей

Это исследование проверяет, могут ли классические правила стоимостного инвестирования Бенджамина Грэма действовать как математический фильтр для предотвращения запоминания рыночного шума сложными моделями машинного обучения. В исследовании сравниваются чистые правила Грэма, современные факторы и их комбинация с моделями XGBoost и AutoGluon на основе 20-летних данных индекса S&P 500.

arxiv arXiv cs.AI · 6 ч назад

Избыточное отказоустойчивость малых локальных LLM в контексте уголовного права

Исследование изучает влияние избыточных отказов на малые, встроенные языковые модели при обработке юридических запросов, выявляя, что префиксы авторитетного стиля систематически увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса. В то время как префиксы взлома через ролевую игру показали смешанные эффекты на разных моделях, результаты указывают на то, что эти малые LLM нестабильны при контекстуальных обрамлениях, типичных для реальных институциональных пользователей.

arxiv arXiv cs.AI · 6 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

media r/LocalLLaMA · 6 ч назад

Двойной GPU: Параллелизм важнее размера модели для локальных LLM

Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.

media r/LocalLLaMA · 6 ч назад

Предложение единого открытого датасета вместо децентрализованного обучения LLM

Автор утверждает, что сообщество с открытым исходным кодом должно приоритизировать создание массивного высококачественного датасета для предварительного обучения, а не пытаться координировать децентрализованное обучение LLM на домашних GPU. Этот сдвиг представлен как более практичный и немедленный ответ на недавние правительственные запреты на коммерческие фронтьерные модели и нехватку релизов открытых весов малого и среднего размера.

media r/LocalLLaMA · 6 ч назад

GPU Bolt Graphics будет оснащен двумя слотами DDR5 для ноутбуков

Bolt Graphics разрабатывает GPU, включающий два слота DDR5 SODIMM для памяти переполнения, с целью начать полное производство к Рождеству 2027 года. У компании есть работающие прототипы, и она нацелена на создателей контента как на первоначальную аудиторию.

arxiv arXiv cs.AI · 7 ч назад

Прогнозирование прогрессирования болезни Альцгеймера с учетом неопределенности на основе глубокого обучения

В данном исследовании предлагается вероятностная модель для лонгитюдного моделирования прогрессирования болезни Альцгеймера, которая объединяет предсказание порядкового диагноза, генерацию траекторий с несколькими горизонтами и декомпозицию оценки неопределенности. Подход использует кодировщик Temporal Fusion Transformer и авторегрессионную смесевую плотностную сеть (Mixture Density Network) для генерации вероятностных траекторий на пять лет вперед, одновременно оценивая как алеаторную, так и эпистемическую неопределенность.

arxiv arXiv cs.AI · 7 ч назад

ScaleToT: Обобщение структурированного рассуждения LLM для моделирования пользователей с низкой активностью в масштабе миллиардов

В статье представлена методика ScaleToT, которая обучается структурированному рассуждению на небольшой подвыборке пользователей и распространяет его на миллиарды пользователей с низкой активностью и разреженными профилями. Она объединяет уточнение Tree-of-Thought (ToT) с ограниченной энтропией, управляемое направляющей функцией, с обучением с учителем (SFT) и оптимизацией политики вознаграждения для передачи способностей к рассуждению без полного вывода LLM.

arxiv arXiv cs.AI · 7 ч назад

Абстракции запросов в доступе к данным на основе онтологий

В этой статье рассматривается абстракция запросов в доступе к данным на основе онтологий (OBDA) путем преобразования запросов к данным на уровень онтологии с использованием экзистенциальных правил и семантики определенных ответов.

arxiv arXiv cs.AI · 7 ч назад

Когда КВ дают сбой: проблемы верификации КВ с помощью OE-Assist

В данной статье исследуются проблемы верификации компетентностных вопросов (КВ) — процесса, при котором онтологии оцениваются на основе вопросов на естественном языке для обеспечения корректности моделирования. Авторы анализируют причины усложнения КВ и то, как ассистент на базе LLM может поддерживать пользователей в ходе этой оценки.

arxiv arXiv cs.AI · 7 ч назад

Инфинитезимальная причинность

В этой статье предлагается категориальный подход к инфинитезимальной причинности в категориях Маркова с алгеброй Фробениуса, оснащённых семантикой касательного расслоения. Вводится понятие достаточности причинности через совместимость двух различных структур Фробениуса: одна кодирует классические операции с переменными, а другая представляет геометрическую интегрируемость.

arxiv arXiv cs.AI · 7 ч назад

Themis: Объяснимая платформа на базе ИИ для обучения с подкреплением по отзывам человека

Авторы представляют Themis, платформу тестирования и оценки на основе объяснимого ИИ (XAI), которая сочетает прозрачность через объяснимость с выравниванием посредством отзывов человека для безопасных систем обучения с подкреплением.

arxiv arXiv cs.AI · 7 ч назад

Сохранение конфиденциальности в RAG с помощью многоагентной семантической переформулировки

Авторы предлагают многоагентную архитектуру, которая очищает извлеченный контент в системах Retrieval-Augmented Generation (RAG) посредством семантической переформулировки для предотвращения утечки конфиденциальных данных из вредоносных запросов. Используя три специализированных агента для извлечения конфиденциальной информации, семантического анализа и реконструкции, подход удаляет чувствительные идентификаторы, сохраняя основной смысл текста.

arxiv arXiv cs.AI · 7 ч назад

SAFARI: Масштабирование атрибуции сбоев агентов на длинных горизонтах через активное расследование

Статья представляет SAFARI, фреймворк, предназначенный для диагностики сбоев автономных агентов путем замены линейной загрузки контекста на диагностический цикл с расширенными инструментами. Этот подход отделяет точность диагностики от архитектурных ограничений контекста за счет использования специализированных инструментов и кратковременной памяти для анализа сегментов траектории.