Все статьи — korshunov.ai

Все статьи Страница 1 / 124

Панинианская основа для обработки индийских языков

В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.

arxiv arXiv cs.LG · 8 ч назад

Легковесные модели трансформеров для обнаружения неисправностей на устройстве: исследование бенчмарка для развертывания в условиях ограниченных ресурсов

В данном исследовании проводится бенчмарк традиционных методов машинного обучения против легковесных архитектур трансформеров для бинарного обнаружения неисправностей на трех публичных наборах данных, оцениваются компромиссы между точностью, размером модели и задержкой. Исследование оценивает классификационную производительность с использованием F1-меры и AUC, а также тестирует динамическое квантование INT8 и двухэтапный адаптивный конвейер вывода для оптимизации развертывания на оборудовании с ограниченными ресурсами.

arxiv arXiv cs.LG · 8 ч назад

Проект Ariadne: Генерация маршрутов с учётом промпта для планирования синтеза

Исследователи представляют Ariadne, модель только на декодере, которая переосмысливает ретросинтетическое планирование как генерацию последовательностей, обусловленную промптом, позволяя представлять целевые молекулы, ограничения и маршруты в одной последовательности. Этот подход устраняет необходимость в отдельных моделях, адаптированных под конкретные спецификации планирования.

arxiv arXiv cs.LG · 8 ч назад

Автоматизированная оценка остаточных графиков с помощью пакета autovi для R и приложения autovi.web на Shiny

В статье представлен пакет R и приложение Shiny, предназначенные для автоматизации визуальной оценки остаточных графиков линейных моделей, что решает проблемы масштабируемости и согласованности, присущие ручной оценке.

media r/LocalLLaMA · 8 ч назад

благодарность /u/TheDankestSlav за эту жемчужину

Этот пост в Reddit из r/LocalLLaMA — простое выражение благодарности пользователю /u/TheDankestSlav. Он содержит ссылку на изображение, опубликованное пользователем, которое описывается как «жемчужина».

media r/LocalLLaMA · 8 ч назад

Пользователь Reddit критикует заявления Дарио Амодеи об открытом ИИ

Пользователь Reddit утверждает, что генеральный директор Anthropic Дарио Амодеи фундаментально не понимает, как работают модели открытого ИИ, опровергая его недавние показания в Конгрессе от 28 июня 2026 года. Автор настаивает на том, что утверждения Амодеи относительно прозрачности и доступности являются фактологически неверными с учетом текущего состояния моделей с открытыми весами.

lab Claude Code Releases · 8 ч назад

Список изменений Claude Code v2.1.196

Версия Claude Code 2.1.196 вводит модели по умолчанию для организаций, кликабельные вложения файлов и улучшенную безопасность для утверждений MCP-серверов. Обновление также повышает надежность фоновых сессий, устраняет различные проблемы с отчетностью о статусе агентов и оптимизирует использование токенов в рабочих процессах проверки кода.

arxiv arXiv cs.LG · 9 ч назад

MotifGen: Пространственно-временная интерполяция несовместимых спутниковых изображений с помощью многоисточникового генеративного моделирования

Исследователи представляют MotifGen, генеративную модель, предназначенную для пространственно-временной интерполяции микроволновых изображений тропических циклонов из нескольких геопространственных источников с нерегулярными временными интервалами и географическим смещением. Модель решает проблему высокой гетерогенности микроволновых данных, объединяя входные данные от различных инструментов для заполнения пробелов, вызванных длительным временем повторного обзора спутниками.

arxiv arXiv cs.LG · 9 ч назад

Глубокие численные схемы для систем эргодических БСДУ с приложениями к моделям утилитити с переключением режимов

В данной статье представлены две численные схемы на основе нейронных сетей для решения систем связанных эргодических обратных стохастических дифференциальных уравнений (эБСДУ), мотивированные аппроксимацией оптимальных стратегий в моделях стохастических факторов с переключением режимов.

arxiv arXiv cs.LG · 9 ч назад

PROTECT-90: Набор данных с ошибками для защиты энергосистем

В данной статье представлен набор данных PROTECT-90, открытый эталонный бенчмарк, смоделированный в среде электромагнитных переходных процессов (EMT), предназначенный для решения проблемы отсутствия стандартизированных общедоступных наборов данных с высоковольтными волнами для защиты энергосистем. Публикация направлена на обеспечение прозрачной и воспроизводимой оценки методов, основанных на данных, посредством согласованных измерений, аналогичных тем, что фиксируются цифровыми регистраторами аварийных режимов.

arxiv arXiv cs.LG · 9 ч назад

Управление выполнением задач для неизвестных рабочих нагрузок в энергоавтономных IoT-устройствах: аппаратно-независимая оценка

В данном исследовании предлагаются две аппаратно-независимые стратегии динамического планирования: агент обучения с подкреплением без модели и метод приближенного прогнозирования на лету для управления нестабильной энергией в энергоавтономных IoT-системах без предварительных профилей задач. Оценка по сравнению с адаптивными и статическими базовыми методами с использованием пользовательской симуляционной платформы выявила различные операционные компромиссы для разных системных ограничений.

arxiv arXiv cs.LG · 9 ч назад

Сегментация BEV с открытым словарем на основе 3D-геометрических ограничений

Авторы представляют OVBEVSeg, фреймворк для сегментации вида сверху (BEV) с открытым словарем, который использует модели «зрение-язык» для распознавания категорий за пределами обучающего набора, сохраняя при этом эффективность в реальном времени. Чтобы устранить 3D-геометрическую несогласованность, присущую подъему 2D-семантики в BEV, метод применяет надежные 3D-геометрические ограничения на трех прогрессивных этапах.

arxiv arXiv cs.LG · 9 ч назад

PHANTOM: крупномасштабный набор данных мультимодальных состязательных атак для моделей зрения и языка

Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.

arxiv arXiv cs.LG · 9 ч назад

Параллельное управление многообразием: эффективная адаптация больших ассоциативных памяти через формирование остаточной энергии

Авторы предлагают H-Res (Иерархическое остаточное управление), механизм, который адаптирует большие модели Transformer, модулируя их эффективный энергетический ландшафт без изменения глобального равновесия или увеличения длины последовательности. Этот подход формулирует адаптацию как задачу управления на многообразии активаций для направления траекторий токенов в специфичные для задачи области притяжения.

arxiv arXiv cs.LG · 9 ч назад

RE4: Преобразование с учётом трансформаций в имитации взаимодействий объектов с использованием режимов манипуляции

В данной статье представлен RE4 — фреймворк для обучения с подражанием, который объединяет обоснованные теории манипуляции с современными бенчмарками для сохранения как производительности, так и интерпретируемости в задачах взаимодействия с объектами. Подход использует лёгкую самонадзорную оценку позы и преобразования с учётом режимов для эффективного извлечения и перепланирования демонстраций.

media r/LocalLLaMA · 9 ч назад

Представляем LongCat-2.0, крупномасштабную языковую модель MoE

LongCat-2.0 представлена как крупномасштабная языковая модель Mixture of Experts (MoE) с 1,6 триллиона общих параметров и примерно 48 миллиардами активируемых на токен.

arxiv arXiv cs.LG · 10 ч назад

Естественные идентификаторы для аудита конфиденциальности и данных в больших языковых моделях

В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.

arxiv arXiv cs.LG · 10 ч назад

Аугментация данных: взгляд с точки зрения анализа Фурье

В данной статье исследуется, может ли частичная аугментация данных обеспечить те же статистические преимущества, что и полная аугментация, путем разработки_framework_ на основе анализа Фурье и теории представлений конечных групп.

arxiv arXiv cs.LG · 10 ч назад

MedPCFM: Улучшение завершения медицинских точечных облаков путем интеграции Point Transformer и Flow Matching

В данной статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, который интегрирует Point Transformer v3 (PTv3) с генеративным моделированием непрерывного времени. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect для оценки его производительности в задачах анатомической реконструкции.

arxiv arXiv cs.LG · 10 ч назад

Агностическая модель машинного обучения фотосинтетической обитаемости

Исследователи разработали агностическую модель для Фотосинтетической Обитаемой Зоны (PHZ), основанную на термодинамике и окислительно-восстановительной химии, устраняющую земноцентричные предвзятости, присутствовавшие в предыдущих оценках. Оптимизируя универсальную фотохимическую реакцию по спектрам облучения экзопланет с помощью генетического алгоритма, исследование прогнозирует, что жизнеспособность фотосинтеза снижается линейно с увеличением орбитального расстояния, а не квадратично.