Все статьи — korshunov.ai

Все статьи Страница 1 / 113

Контрастное обучение с учётом пациента сохраняет внутрипациентскую структуру в представлениях RR-интервалов

Статья рассматривает проблему контрастного обучения представлений на физиологических сигналах, где индивидуальные базовые уровни субъектов мешают целям на уровне классов, что приводит к потере моделями индивидуальных вариаций, необходимых для обобщения. Авторы предлагают контрастную функцию потерь с учётом пациента для обнаружения пароксизмальной фибрилляции предсердий, которая формирует положительные пары только из сегментов одного и того же пациента, чтобы сохранить базовые уровни синусового ритма при одновременном разделении классов.

arxiv arXiv cs.LG · 6 ч назад

Спектральная теория нормализованного скорректированного распространения GNN

В данной работе разрабатывается спектральная теория для нормализованного скорректированного распространения графовых нейронных сетей (GNN), с акцентом на симметричную нормализованную матрицу смежности, из которой удален ее компонент, стационарный по степени, чтобы изолировать направление, связанное с чрезмерным сглаживанием.

arxiv arXiv cs.LG · 6 ч назад

MORL-A2C: Ранжерер для многокритериального обучения с подкреплением для здоровья

Исследователи представляют MORL-A2C, расширение последовательного принятия решений для системы MOPI-HFRS, которое использует алгоритм Advantage Actor-Critic для оптимизации компромисса между предпочтениями пользователя и нутритивным здоровьем в рекомендациях по питанию.

media r/LocalLLaMA · 6 ч назад

Я создал агентный каркас для малых моделей. Qwen 3.5 4b управляет серверами.

Автор разработал специализированный агентный каркас, предназначенный для устранения специфических сбоев малых локальных моделей, таких как неудачные вызовы инструментов и плохой трекинг состояния. Этот пользовательский фреймворк позволяет меньшим моделям, таким как Qwen 3.5 4b, эффективно управлять удаленными серверами.

media r/LocalLLaMA · 6 ч назад

Локальный режим превращает изображение в милого управляемого персонажа, за которого можно играть

Автор представляет версию модели на 800M параметров, которая преобразует изображения в управляемых персонажей, предназначенную для комфортной работы на потребительских GPU. Эта итерация увеличивает контекст до 12 латентных кадров и повышает стабильность при сохранении высокой производительности, достигая более 60 кадров в секунду на RTX 5090.

media Hugging Face Forums · 6 ч назад

HoLo-ToLk: модели речи без токенизатора на основе нулевого параметра HSL

Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9837 добавляет флаг --reasoning-preserve и новые бинарные файлы

Проект llama.cpp выпустил версию b9837, которая вводит новый флаг `--reasoning-preserve` для шаблона чата Jinja, чтобы сохранять токены рассуждения. Это обновление также включает исправленные сообщения справки и предоставляет предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.

lab OpenAI News · 6 ч назад

HP Inc. запускает стратегическое партнерство Frontier с OpenAI

HP Inc. расширяет свое стратегическое партнерство с OpenAI после успешных пилотных проектов, внедряя ИИ в клиентский опыт, продуктивность сотрудников и разработку программного обеспечения. Компания использует платформу OpenAI Frontier в качестве единой операционной модели для управления контекстом, разрешениями и оценкой по мере перехода от экспериментальных кейсов к производству на уровне всей компании.

arxiv arXiv cs.LG · 8 ч назад

Решение для гиперпараметра, пропуск поиска: законы масштабирования Колмогорова-Оптимальные для сплайновой регрессии

Статья представляет KORE, метод, который определяет оптимальное разрешение сплайновой регрессии в замкнутой форме, а не через исчерпывающий поиск гиперпараметров. Используя классическую теорию аппроксимации и тождество PRESS, он аналитически балансирует масштабы смещения и шума для достижения точности, сопоставимой с перебором по сетке, но при значительно меньших вычислительных затратах.

arxiv arXiv cs.LG · 8 ч назад

Полиномиальные сети Колмогорова-Арнольда обучаются динамике игры «Жизнь»

В данном исследовании показано, что нейронные сети могут надёжно обучаться динамике игры «Жизнь» Конвея с использованием минимальных архитектур за счёт применения специфических индуктивных смещений, а не полагаясь на масштабные процессы поиска. Авторы демонстрируют, что варианты сетей с альтернативными функциями активации значительно превосходят стандартные линейные блоки с пороговым значением (ReLU), особенно благодаря использованию полиномиальных функций активации второй степени.

arxiv arXiv cs.LG · 8 ч назад

Количественная оценка согласованности между мерами влияния данных и сходства данных в LLM

В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.

arxiv arXiv cs.LG · 8 ч назад

Нейронные сети как линейная регрессия: введение для статистиков

Эта статья знакомит статистиков с нейронными сетями, разъясняя эту область через призму аппроксимации линейной регрессии.

arxiv arXiv cs.LG · 8 ч назад

Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров

Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

arxiv arXiv cs.LG · 8 ч назад

Открытие причинности в эпоху агентов

В статье утверждается против использования больших языковых моделей для вывода причинных структур, предупреждая, что такие подходы рискуют спутать текстовые ассоциации с настоящими причинными доказательствами. Вместо этого предлагается, чтобы агенты лишь помогали рабочему процессу, проверяя данные и объясняя предположения, оставляя причинные утверждения опирающимися на формальные алгоритмы и диагностику.

media r/LocalLLaMA · 8 ч назад

Пользователь запускает Qwen3.6-27B на бюджетном оборудовании для создания прототипов в строительной сфере

Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.

media r/LocalLLaMA · 8 ч назад

Движок NPC на основе локальных моделей

Разработчик создал игронезависимый бэкенд движка NPC, который использует небольшие локальные модели для достижения быстрого времени отклика и приемлемого качества в ролевых играх. Система использует NVIDIA Parakeet 0.6 для преобразования речи в текст, Gemma 4 26B A4B в качестве LLM и Qwen3-TTS для синтеза голоса.

media r/LocalLLaMA · 8 ч назад

Производительность разделения тензоров на eGPU с низкой пропускной способностью (TB3) и вопрос

Пользователь сообщает о тестировании режима разделения тензоров с двумя внешними GPU Morefine G1 4090M 16GB, подключенными через Thunderbolt 3 со скоростью 40 Гбит/с. В то время как режим разделения слоев обеспечивает высокие скорости токенов для префилла (PP) и генерации текста (TG), режим разделения тензоров насыщает обе карты во время TG, но страдает от низкой производительности PP из-за насыщения пропускной способности.

arxiv arXiv cs.LG · 8 ч назад

Выявление скрытых групп для устойчивой классификации

Авторы предлагают нейронные классификационные деревья (NCT), фреймворк, который обеспечивает устойчивость за счёт кодирования структуры подгрупп внутри своей древовидной архитектуры для устранения ложных корреляций в моделях машинного обучения.

arxiv arXiv cs.LG · 8 ч назад

Отбор данных через итеративную самодиагностику для задач визуального языка

Исследователи предлагают новый метод с самонастраивающимся отбором, названный Self-Filtering, который обучает модель CLIP на эволюционирующем наборе данных, отобранном через итеративную самодиагностику. Этот подход балансирует между отфильтрованными высоковероятными чистыми примерами и разнообразными образцами из всего распределения, чтобы снизить уровень шума в крупномасштабных наборах данных для визуального языка.

arxiv arXiv cs.LG · 8 ч назад

Hedgementation: Бенчмарк дистанционного зондирования для сегментации живых изгородей

Авторы предлагают Hedgementation, новый бенчмарк, разработанный для оценки моделей машинного обучения при картографировании живых изгородей по данным дистанционного зондирования в масштабах страны с пространственным разрешением 10 м². Эта инициатива объединяет и гармонизирует несколько продуктов дистанционного зондирования и эталонных меток, полученных из французского реестра живых изгородей.