Все статьи — korshunov.ai

Все статьи Страница 1 / 120

CrossPool: Эффективная совместная работа нескольких LLM для холодных моделей MoE за счёт разделения пулов весов и KV-кэша

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.

media r/LocalLLaMA · 5 ч назад

Модель HuiHui с удалёнными ограничениями превосходит базовую 3.6-35B-a3b в задачах по математике и коду

Специальный рецепт квантования, применённый к модели HuiHui с удалёнными ограничениями, демонстрирует превосходные результаты по сравнению с базовой версией 3.6-35B-a3b в задачах математики и программирования. Результаты указывают на то, что удаление механизмов отказа позволяет модели достигать большей точности и мудрости в этих областях.

media r/LocalLLaMA · 5 ч назад

Амоди: «Модели с открытым исходным кодом съедят ваших детей»

Этот пост на Reddit содержит изображение с цитатой «Модели с открытым исходным кодом съедят ваших детей», приписываемой Амоди. Содержание включает ссылку на изображение и ссылку на связанную ветку комментариев в r/LocalLLaMA.

media r/LocalLLaMA · 5 ч назад

Амодеи из Anthropic: открытые модели могут быть опасными

Дарио Амодеи, генеральный директор Anthropic, выразил обеспокоенность тем, что открытые ИИ-модели могут привести к опасным последствиям. В заявлении подчеркиваются потенциальные риски, связанные с неограниченным доступом к передовым технологиям искусственного интеллекта.

arxiv arXiv cs.AI · 6 ч назад

О малости показателей масштабирования больших языковых моделей

В статье обсуждаются причины, по которым показатели масштабирования современных приложений на основе больших языковых моделей указывают на неустойчивый режим с точки зрения энергоресурсов.

arxiv arXiv cs.AI · 6 ч назад

Справедливая оценка графовых фундаментальных моделей для предсказания свойств узлов

В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, сравнивая их с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы устранить отсутствие единых стандартов оценки в этой области.

arxiv arXiv cs.AI · 6 ч назад

RaDaR: специализированная LLM для рассуждений, ускоряющая диагностику редких заболеваний

Исследователи представляют RaDaR — открытую 32B параметр reasoning large language model, предназначенную для ускорения диагностики редких заболеваний за счет решения проблем клинической внедряемости и нехватки данных. Модель обучена на почти 50 000 публичных случаях и более чем 100 000 синтетических случаев, демонстрируя превосходные результаты по бенчмаркам и во внешних валидационных центрах.

arxiv arXiv cs.AI · 6 ч назад

Обучение с подкреплением для агентов управления компьютером с автономной оценкой

Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.

arxiv arXiv cs.AI · 6 ч назад

AdversaBench: Автоматизированное красное тестирование LLM с подтверждением многосудейской панели и переносимостью между моделями

Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.

media r/LocalLLaMA · 6 ч назад

Samsung, SK hynix и Micron стали ответчиками в США по делу о сговоре о ценах на память

В Соединенных Штатах подан иск против крупных производителей чипов памяти Samsung, SK hynix и Micron в связи с обвинениями в сговоре о ценах.

blog Simon Willison · 6 ч назад

Ornith-1.0: Самоструктурирующиеся LLM для агентного программирования

DeepReinforce выпустила Ornith-1.0, модель с открытыми весами под лицензией MIT, которая демонстрирует лучшие результаты среди моделей с открытым исходным кодом сопоставимого размера на бенчмарках по программированию. Модель построена на базе предварительно обученных Gemma 4 и Qwen 3.5 и включает варианты с количеством параметров: 9B Dense, 31B Dense, 35B MoE и 397B MoE.

media r/LocalLLaMA · 6 ч назад

Статья на arXiv задержана на 2 месяца.

Исследователь, подающий свою первую статью в arXiv, сообщает, что рукопись находится на рассмотрении модераторов уже два месяца, несмотря на прохождение автоматических проверок квалификации. Автор спрашивает, является ли такая задержка нормальной, и просит совета: стоит ли подавать работу повторно или продолжать ждать.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9842: дедупликация пресетов и кэшированных записей моделей в /v1/models

Выпуск llama.cpp b9842 вносит изменения для дедупликации пресетов и кэшированных записей моделей в эндпоинте /v1/models. Это обновление одобрено Адриеном Галлуэтом из Hugging Face.

arxiv arXiv cs.AI · 7 ч назад

Постер: Исследование пределов обнаружения турецких телефонных мошеннических звонков на основе аудио

Данное исследование изучает использование больших языковых моделей для обнаружения мошеннических телефонных звонков на турецком языке — языке с низким уровнем ресурсности, где аннотированные данные отсутствуют.

arxiv arXiv cs.AI · 7 ч назад

Управляемая разделяемая память для многоагентных LLM-систем

В данной работе формализуется проблема fleet-memory в средах с множеством агентов на базе LLM, выделяются четыре фундаментальных режима отказа: несанкционированная утечка, распространение устаревших данных, персистентность противоречий и коллапс происхождения. Для решения этих проблем авторы определяют явные примитивы системного уровня, включая ограниченный поиск, временное замещение, отслеживание происхождения и управление распространением памяти на основе политик.

arxiv arXiv cs.AI · 7 ч назад

Квантовая конвергенция: соединение классического стоимостного инвестирования и современных факторных моделей

Это исследование проверяет, могут ли классические правила стоимостного инвестирования Бенджамина Грэма действовать как математический фильтр для предотвращения запоминания рыночного шума сложными моделями машинного обучения. В исследовании сравниваются чистые правила Грэма, современные факторы и их комбинация с моделями XGBoost и AutoGluon на основе 20-летних данных индекса S&P 500.

arxiv arXiv cs.AI · 7 ч назад

Избыточное отказоустойчивость малых локальных LLM в контексте уголовного права

Исследование изучает влияние избыточных отказов на малые, встроенные языковые модели при обработке юридических запросов, выявляя, что префиксы авторитетного стиля систематически увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса. В то время как префиксы взлома через ролевую игру показали смешанные эффекты на разных моделях, результаты указывают на то, что эти малые LLM нестабильны при контекстуальных обрамлениях, типичных для реальных институциональных пользователей.

arxiv arXiv cs.AI · 7 ч назад

ASALT: Адаптивное выравнивание состояний для латерального переноса в многоагентном обучении с подкреплением

В данной статье представлен ASALT — метод латерального переноса обучения в многоагентном обучении с подкреплением, который учитывает несоответствие размерностей пространства состояний между исходной и целевой областями. Подход использует адаптеры на уровне наблюдений и на уровне состояний для отображения входных данных в общее пространство эмбеддингов, что обеспечивает эффективный перенос знаний между гетерогенными средами.

media r/LocalLLaMA · 7 ч назад

Двойной GPU: Параллелизм важнее размера модели для локальных LLM

Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.

media r/LocalLLaMA · 7 ч назад

Влияние GLM 5.2 !!

Пользователь Reddit разместил изображение с заголовком «Влияние GLM 5.2 !!» в сабреддите r/LocalLLaMA.