Training data — korshunov.ai — новости ML

Training data Страница 1 / 4

Устранение предвзятости при ограничениях на покрытие и цена справедливости

Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.

arxiv arXiv cs.AI · 6 д назад

EEG Foundation Models для обнаружения всплесков-подавления в отделении интенсивной терапии

Исследование оценивает использование EEG Foundation Models для обнаружения всплесков-подавления на основе событий в условиях отделения интенсивной терапии без калибровки, специфичной для пациента. REVE-base достиг высшего значения F1-с코ра на основе событий — 0,868, и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet и на 36,2% по сравнению с адаптивным порогом, что демонстрирует превосходную производительность. Результаты аблации показывают, что полная мелкая настройка превосходит другие стратегии, а предобученный REVE-base превосходит случайную инициализацию на 0,723 пункта F1 при 25% обучающих данных, что подчеркивает ценность предобучения для ограниченных наборов данных.

arxiv arXiv cs.AI · 6 д назад

Оптимизация на основе эволюционных методов в пространстве остатков через модели генеративных потоков

Модель-агностичная система объединяет редактирование на основе потоков с эволюционными алгоритмами для обеспечения редактирования данных в ненаблюдаемых условиях. Она работает в пространстве остатков, используя самопропагацию для локальной оптимизации и перекрестное скрещивание для широкого поиска, что было проверено на данных MorphoMNIST и кристаллов для достижения баланса между соответствием цели, сохранением экземпляров и разнообразием.

arxiv arXiv cs.AI · 6 д назад

Обнаружение смещения концептов на основе обучаемых моделей: анализ и оценка

Этот исследовательский проект анализирует и оценивает алгоритмы обнаружения смещения концептов в различных категориях с использованием синтетических и реальных потоковых данных. В нем исследуются характеристики смещения и оцениваются показатели работы детекторов в условиях резких и постепенных смещений, чтобы улучшить понимание поведения смещения и применимости детекторов.

arxiv arXiv cs.AI · 6 д назад

Новый подход DTL для диагностики неисправностей при ограниченном объеме данных

Новый метод глубокой передачи знаний использует нелинейности систем для генерации диагностических данных при крайне ограниченном объеме данных. Данный подход использует периодическую процедуру многократного возбуждения и новую технику визуализации данных для расширения ограниченных данных о вибрациях, что позволяет проводить эффективную диагностику неисправностей с использованием предобученных CNN. Экспериментальные результаты на рельсовом контактном проводе подтверждают эффективность метода.

arxiv arXiv cs.LG · 6 д назад

Самоадаптивная обработка масштабов для прогнозирования временных рядов

Новый модуль, называемый Самоадаптивной обработкой масштабов (AS), решает проблему гетерогенности масштабов в прогнозировании временных рядов. Он использует Калибровку масштабов и Выбор масштабирования для адаптивного регулирования коэффициентов масштабирования, сохраняя семантическую дискриминацию и снижая ошибки обратного масштабирования. Эксперименты на данных о продажах фондов показывают улучшенную производительность при интеграции в существующие прогнозирующие модели.

arxiv arXiv cs.LG · 6 д назад

TESSERA и AlphaEarth встраивания позволяют проводить мелкое картирование LCZ в швейцарских городах

Исследование, охватывающее пять швейцарских городов, сравнивает встраивания TESSERA и AlphaEarth с традиционными данными Sentinel с целью масштабирования карт локальных климатических зон до разрешения 10 метров с использованием U-Net на основе внимания. TESSERA стабильно превосходит как Sentinel-1/2, так и AlphaEarth, достигая показателей IoU от 0,59 до 0,69 и от 0,77 до 0,82. Результаты показывают, что встраивания сокращают ручную предобработку и обеспечивают масштабируемое, воспроизводимое картирование LCZ, хотя для дальнейшего повышения точности ключевую роль играет улучшение исходных данных.

arxiv arXiv cs.LG · 6 д назад

Сравнительное исследование нейронных заменителей для прогноза состояния аккумулятора

Сравнительное исследование оценивает четыре нейронные архитектуры — MLP, ResNet, U-Net и FNO — как автокорреляционные предикторы внутренних состояний аккумулятора с использованием модели Doyle-Fuller-Newman. U-Net достигает среднего значения nRMSE на последнем шаге в 3% по всем переменным состояния и обеспечивает ускорение в 5,38 раз по сравнению с численными решателями, что демонстрирует важность пространственной индуктивной предпосылки в производительности заменителей.

arxiv arXiv cs.LG · 6 д назад

EEG Foundation Models для обнаружения всплесков-подавления в ICU

Исследование оценивает EEG Foundation Models для обнаружения событий всплесков-подавления в ЭЭГ ICU без калибровки по пациенту. REVE-base достиг наивысшего значения F1-с코ра по событиям 0,868 и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet. Результаты аблации показывают, что полная тонкая настройка превосходит другие стратегии, а предварительно обученный REVE-base превосходит случайную инициализацию на 0,723 точки F1 при 25% обучающих данных.

arxiv arXiv cs.LG · 6 д назад

Обнаружение смещения концепций на основе обучаемых моделей: анализ и оценка

Этот исследовательский проект анализирует и оценивает алгоритмы обнаружения смещения концепций в нескольких категориях с использованием синтетических и реальных потоковых данных. В нем рассматриваются характеристики смещения и оцениваются показатели работы детекторов в условиях резких и постепенных смещений, чтобы улучшить понимание поведения смещения и применимости детекторов.

arxiv arXiv cs.LG · 6 д назад

Кадр VibrantForests отображает структуру лесов с разрешением 10 метров

Кадр VibrantForests использует данные спутников, обученные на образцах лазерного сканирования, для создания ежегодных, полных по территории карт покрытия крон, высоты, биомассы, базовой площади и квадратичного среднего диаметра на территории непрерывного Соединённых Штатов с разрешением 10 метров. Он повышает точность, сокращая переоценку в редких лесах и недооценку в плотных лесах, расширяя диапазон надежных прогнозов за пределы традиционных моделей, основанных на пассивных сенсорах.

arxiv arXiv cs.LG · 6 д назад

Гибридная модель предсказывает динамику микроорганизмов в почвенных системах

Новая гибридная модель использует геномные данные и нейронные сети для прогнозирования биокинетических параметров в моделях распада органического вещества в почве. В нее включены экологические ограничения, чтобы обеспечить реалистичную динамику микроорганизмов, даже для неизмеряемых переменных, и превосходит существующие методы как на синтетических, так и на реальных данных при минимальном объеме обучающих данных.

arxiv arXiv cs.CL · 6 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

arxiv arXiv cs.CL · 6 д назад

Алгоритм для определения нот и ключей в музыкальной транскрипции

Новый алгоритм оценивает названия нот, ключи и локальные шкалы на основе входных данных, аналогичных MIDI, путем совместной оптимизации модальных и тональных стадий. Он был проверен на жазз-сопровождениях, соло-транскрипциях, традиционных мелодиях и классических пьесах для пианино, с дополнительными расстояниями, определенными между распространенными жазз-шкалами для музыкальных исследований.

arxiv arXiv cs.CL · 6 д назад

CzechDocs: Параллельный набор данных для перевода документов на малые языки

CzechDocs — это многоканальный параллельный набор данных, содержащий оформленные документы в форматах HTML, DOCX и PDF, охватывающие чешский язык и малые языки, такие как украинский, английский, вьетнамский и русский. Набор поддерживает оценку систем машинного перевода, сохраняющих форматирование документов, и включает подмножество для проверки и открытый инструментарий для оценки. Будет использоваться отдельный тестовый набор для будущего совместного задания по переводу документов с сохранением форматирования.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

media r/LocalLLaMA · 7 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.

arxiv arXiv cs.LG · 7 д назад

Автоматизированный фреймворк для задержанных и ложных триггеров системы аварийного торможения

Новая автоматизированная система решает проблему экстремального несбалансированного класса и асимметричной шумовой помехи в данных автономной системы аварийного торможения. Она использует целенаправленное расширение данных и подавление шума для выявления редких задержанных и ложных триггеров с улучшением выявления на 80% и сокращением ручной аннотации на 50%, что позволяет обеспечивать непрерывное самоулучшение в оптимизации системы аварийного торможения в автомобиле.

arxiv arXiv cs.LG · 7 д назад

XGBoost-Forget для машинного забвения в обнаружении сетевых инцидентов

XGBoost-Forget обеспечивает эффективное машинное забвение для моделей XGBoost на табличных сетевых данных об инцидентах. Оно сохраняет производительность модели, при этом обеспечивает более быстрое забвение по сравнению с полным переобучением, решая пробел в исследованиях машинного забвения для табличных данных в обнаружении сетевых инцидентов.

arxiv arXiv cs.LG · 7 д назад

SCAN: Многоуровневое кластерное моделирование для обнаружения аномалий в временных рядах

SCAN улучшает методы обнаружения аномалий в временных рядах на основе реконструкции, интегрируя многоуровневое кластерное моделирование, основанное на окрестностях. Метод использует представления центров кластеров для ограничения реконструкции нормальных паттернов и получает оценку вероятности аномалии на основе вероятности принадлежности к кластеру и ошибки реконструкции. Широкие эксперименты на реальных данных показывают, что SCAN достигает наилучших результатов.