Все статьи — korshunov.ai

Все статьи Страница 1 / 120

Обучение с подкреплением для агентов управления компьютером с автономной оценкой

Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.

arxiv arXiv cs.AI · 5 ч назад

AdversaBench: Автоматизированное красное тестирование LLM с подтверждением многосудейской панели и переносимостью между моделями

Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.

media r/LocalLLaMA · 5 ч назад

Samsung, SK hynix и Micron стали ответчиками в США по делу о сговоре о ценах на память

В Соединенных Штатах подан иск против крупных производителей чипов памяти Samsung, SK hynix и Micron в связи с обвинениями в сговоре о ценах.

blog Simon Willison · 5 ч назад

Ornith-1.0: Самоструктурирующиеся LLM для агентного программирования

DeepReinforce выпустила Ornith-1.0, модель с открытыми весами под лицензией MIT, которая демонстрирует лучшие результаты среди моделей с открытым исходным кодом сопоставимого размера на бенчмарках по программированию. Модель построена на базе предварительно обученных Gemma 4 и Qwen 3.5 и включает варианты с количеством параметров: 9B Dense, 31B Dense, 35B MoE и 397B MoE.

media r/LocalLLaMA · 5 ч назад

Статья на arXiv задержана на 2 месяца.

Исследователь, подающий свою первую статью в arXiv, сообщает, что рукопись находится на рассмотрении модераторов уже два месяца, несмотря на прохождение автоматических проверок квалификации. Автор спрашивает, является ли такая задержка нормальной, и просит совета: стоит ли подавать работу повторно или продолжать ждать.

github llama.cpp · 5 ч назад

Выпуск llama.cpp b9842: дедупликация пресетов и кэшированных записей моделей в /v1/models

Выпуск llama.cpp b9842 вносит изменения для дедупликации пресетов и кэшированных записей моделей в эндпоинте /v1/models. Это обновление одобрено Адриеном Галлуэтом из Hugging Face.

arxiv arXiv cs.AI · 6 ч назад

Постер: Исследование пределов обнаружения турецких телефонных мошеннических звонков на основе аудио

Данное исследование изучает использование больших языковых моделей для обнаружения мошеннических телефонных звонков на турецком языке — языке с низким уровнем ресурсности, где аннотированные данные отсутствуют.

arxiv arXiv cs.AI · 6 ч назад

Управляемая разделяемая память для многоагентных LLM-систем

В данной работе формализуется проблема fleet-memory в средах с множеством агентов на базе LLM, выделяются четыре фундаментальных режима отказа: несанкционированная утечка, распространение устаревших данных, персистентность противоречий и коллапс происхождения. Для решения этих проблем авторы определяют явные примитивы системного уровня, включая ограниченный поиск, временное замещение, отслеживание происхождения и управление распространением памяти на основе политик.

arxiv arXiv cs.AI · 6 ч назад

Квантовая конвергенция: соединение классического стоимостного инвестирования и современных факторных моделей

Это исследование проверяет, могут ли классические правила стоимостного инвестирования Бенджамина Грэма действовать как математический фильтр для предотвращения запоминания рыночного шума сложными моделями машинного обучения. В исследовании сравниваются чистые правила Грэма, современные факторы и их комбинация с моделями XGBoost и AutoGluon на основе 20-летних данных индекса S&P 500.

arxiv arXiv cs.AI · 6 ч назад

Избыточное отказоустойчивость малых локальных LLM в контексте уголовного права

Исследование изучает влияние избыточных отказов на малые, встроенные языковые модели при обработке юридических запросов, выявляя, что префиксы авторитетного стиля систематически увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса. В то время как префиксы взлома через ролевую игру показали смешанные эффекты на разных моделях, результаты указывают на то, что эти малые LLM нестабильны при контекстуальных обрамлениях, типичных для реальных институциональных пользователей.

arxiv arXiv cs.AI · 6 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

media r/LocalLLaMA · 6 ч назад

Двойной GPU: Параллелизм важнее размера модели для локальных LLM

Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.

media r/LocalLLaMA · 6 ч назад

Влияние GLM 5.2 !!

Пользователь Reddit разместил изображение с заголовком «Влияние GLM 5.2 !!» в сабреддите r/LocalLLaMA.

media r/LocalLLaMA · 6 ч назад

Предложение единого открытого датасета вместо децентрализованного обучения LLM

Автор утверждает, что сообщество с открытым исходным кодом должно приоритизировать создание массивного высококачественного датасета для предварительного обучения, а не пытаться координировать децентрализованное обучение LLM на домашних GPU. Этот сдвиг представлен как более практичный и немедленный ответ на недавние правительственные запреты на коммерческие фронтьерные модели и нехватку релизов открытых весов малого и среднего размера.

media r/LocalLLaMA · 6 ч назад

GPU Bolt Graphics будет оснащен двумя слотами DDR5 для ноутбуков

Bolt Graphics разрабатывает GPU, включающий два слота DDR5 SODIMM для памяти переполнения, с целью начать полное производство к Рождеству 2027 года. У компании есть работающие прототипы, и она нацелена на создателей контента как на первоначальную аудиторию.

arxiv arXiv cs.AI · 7 ч назад

Прогнозирование прогрессирования болезни Альцгеймера с учетом неопределенности на основе глубокого обучения

В данном исследовании предлагается вероятностная модель для лонгитюдного моделирования прогрессирования болезни Альцгеймера, которая объединяет предсказание порядкового диагноза, генерацию траекторий с несколькими горизонтами и декомпозицию оценки неопределенности. Подход использует кодировщик Temporal Fusion Transformer и авторегрессионную смесевую плотностную сеть (Mixture Density Network) для генерации вероятностных траекторий на пять лет вперед, одновременно оценивая как алеаторную, так и эпистемическую неопределенность.

arxiv arXiv cs.AI · 7 ч назад

ScaleToT: Обобщение структурированного рассуждения LLM для моделирования пользователей с низкой активностью в масштабе миллиардов

В статье представлена методика ScaleToT, которая обучается структурированному рассуждению на небольшой подвыборке пользователей и распространяет его на миллиарды пользователей с низкой активностью и разреженными профилями. Она объединяет уточнение Tree-of-Thought (ToT) с ограниченной энтропией, управляемое направляющей функцией, с обучением с учителем (SFT) и оптимизацией политики вознаграждения для передачи способностей к рассуждению без полного вывода LLM.

arxiv arXiv cs.AI · 7 ч назад

Абстракции запросов в доступе к данным на основе онтологий

В этой статье рассматривается абстракция запросов в доступе к данным на основе онтологий (OBDA) путем преобразования запросов к данным на уровень онтологии с использованием экзистенциальных правил и семантики определенных ответов.

arxiv arXiv cs.AI · 7 ч назад

Когда КВ дают сбой: проблемы верификации КВ с помощью OE-Assist

В данной статье исследуются проблемы верификации компетентностных вопросов (КВ) — процесса, при котором онтологии оцениваются на основе вопросов на естественном языке для обеспечения корректности моделирования. Авторы анализируют причины усложнения КВ и то, как ассистент на базе LLM может поддерживать пользователей в ходе этой оценки.

arxiv arXiv cs.AI · 7 ч назад

Инфинитезимальная причинность

В этой статье предлагается категориальный подход к инфинитезимальной причинности в категориях Маркова с алгеброй Фробениуса, оснащённых семантикой касательного расслоения. Вводится понятие достаточности причинности через совместимость двух различных структур Фробениуса: одна кодирует классические операции с переменными, а другая представляет геометрическую интегрируемость.