Training data — korshunov.ai — новости ML

Training data Страница 1 / 4

Очистка меток с использованием больших языковых моделей в наборе данных по рентгеновским снимкам грудной клетки

Большая языковая модель (LLM) помогла выявить несоответствия между метками и отчетами в наборе данных CT-RATE по рентгеновским снимкам грудной клетки. GPT-5.4 достигла согласия на уровне 96,4% с существующими метками, при этом рентгенологическая проверка подтвердила метки, полученные с помощью LLM, в 74,2% общих и 91,9% случаев лимфоаденопатии. Метки, полученные с помощью большинства из нескольких LLM, показали лучшие результаты по F1 и кэппу, и очищенный набор данных будет опубликован.

arxiv arXiv cs.CL · 1 д назад

UD_Czech-PDTC: Большой и жанрово-разнообразный корпус в универсальных зависимостях

Корпус привязки в Праге-согласованный (PDT-C) был преобразован в универсальные зависимости, что привело к появлению ресурса UD_Czech-PDTC. Этот ресурс превышает размер оригинального PDT более чем в два раза и значительно более разнообразен по жанрам и областям. Несмотря на структурные и гранулярные различия между PDT-C и UD, многоуровневые аннотации PDT-C предоставляют всесторонние данные, полезные как для базовых деревьев UD, так и для более сложных задач.

arxiv arXiv cs.CL · 2 д назад

Koshur Pixel: Первый масштабный синтетический набор данных для распознавания текста на кашмирском языке

Koshur Pixel представляет синтетический набор данных для распознавания текста, содержащий 613 078 пар изображений и текста, сгенерированных на основе корпуса KS-PRET-5M с использованием SynthOCR-Gen. В наборе присутствуют более 25 стратегий усилений и охватывают разнообразные шрифты и масштабы текста, от слов до полных документов, что позволяет масштабируемо обучать системы распознавания текста на кашмирском языке.

lab NVIDIA Technical Blog · 3 д назад

Включить реальное время ИИ для высокоскоростного сбора данных с помощью DAQIRI

Успех AlphaFold2 в 2020 году зависел от 170 000 структур белков из Базы данных белков. Система DAQIRI от Nvidia позволяет выполнять реальное время обработку ИИ для высокоскоростного сбора данных, анализируя данные при их генерации.

media Hugging Face Forums · 3 д назад

Поиск наборов документов для обучения ИИ/OCR на индийских языках в Индии

QuantVectors ищет аннотированные наборы документов на индийских языках из Индии, включая хинди, маратхи, гуджарати, бенгали, панjabi, тамильский, урду, телугу, оди, каннада, мальяли и ассамский. Наборы должны включать типы документов: счет-фактура, чек, счет-счет, рекомендация по оплате, список упаковки, коммерческий счет-фактура и кредитный документ, приблизительно 400 документов на язык, аннотации, проверенные людьми, и точность не менее 99%. Наборы должны быть коммерчески лицензируемыми и могут быть либо открытого доступа, либо коммерческими, с запросом к наборам на HuggingFace, научным наборам данных или поставщикам, специализирующимся в этой области.

media r/LocalLLaMA · 5 д назад

Выпущена самая большая в мире база данных заголовков чатов от SupraLabs

SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.

arxiv arXiv cs.AI · 6 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 6 д назад

Контекстуально-осознанный байесовский модель улучшает прогнозирование успеха ИВФ

Иерархическая байесовская модель, использующая 55 контекстуально-осознанных экологических признаков, снижает ошибку прогноза до 1,27% в данных по ИВФ, по сравнению с 3–5% при использовании средних значений датчиков. Модель достигает R2 = 0,86 на отложенных данных и снижает ошибку на 64% для женщин в возрасте 35–39 лет, демонстрируя переносимый клинический сигнал между клиниками.

arxiv arXiv cs.LG · 6 д назад

Топологический анализ данных для мониторинга процессов в реальном времени

Новый метод объединяет топологический анализ данных и машинное обучение для мониторинга высокомерных динамических процессов. Он представляет временные ряды как многообразия, использует топологические характеристики для описания структуры и применяет нейронные обыкновенные дифференциальные уравнения для моделирования динамического развития. Подход эффективно обнаруживает разнообразные события в промышленных данных процессов и превосходит альтернативы на основе реконструкции и на основе траекторий.

arxiv arXiv cs.LG · 6 д назад

SSH-Net: Глубокая сеть для прогнозирования времени отказа при конкурирующих рисках

SSH-Net — это структурированная глубокая нейронная сеть, предназначенная для прогнозирования функций распределения времени отказа при конкурирующих рисках. Она использует отдельные подсети для различных групп ковариат, повышая точность за счёт сопоставления структуры нейронной сети с иерархией данных. Модель проверяется с помощью симуляционных исследований и применяется к данным о сбоях GPU Titan.

arxiv arXiv cs.LG · 6 д назад

Устранение предвзятости при ограничениях на покрытие и цена справедливости

Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.

arxiv arXiv cs.AI · 6 д назад

EEG Foundation Models для обнаружения всплесков-подавления в отделении интенсивной терапии

Исследование оценивает использование EEG Foundation Models для обнаружения всплесков-подавления на основе событий в условиях отделения интенсивной терапии без калибровки, специфичной для пациента. REVE-base достиг высшего значения F1-с코ра на основе событий — 0,868, и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet и на 36,2% по сравнению с адаптивным порогом, что демонстрирует превосходную производительность. Результаты аблации показывают, что полная мелкая настройка превосходит другие стратегии, а предобученный REVE-base превосходит случайную инициализацию на 0,723 пункта F1 при 25% обучающих данных, что подчеркивает ценность предобучения для ограниченных наборов данных.

arxiv arXiv cs.AI · 6 д назад

Оптимизация на основе эволюционных методов в пространстве остатков через модели генеративных потоков

Модель-агностичная система объединяет редактирование на основе потоков с эволюционными алгоритмами для обеспечения редактирования данных в ненаблюдаемых условиях. Она работает в пространстве остатков, используя самопропагацию для локальной оптимизации и перекрестное скрещивание для широкого поиска, что было проверено на данных MorphoMNIST и кристаллов для достижения баланса между соответствием цели, сохранением экземпляров и разнообразием.

arxiv arXiv cs.AI · 6 д назад

Обнаружение смещения концептов на основе обучаемых моделей: анализ и оценка

Этот исследовательский проект анализирует и оценивает алгоритмы обнаружения смещения концептов в различных категориях с использованием синтетических и реальных потоковых данных. В нем исследуются характеристики смещения и оцениваются показатели работы детекторов в условиях резких и постепенных смещений, чтобы улучшить понимание поведения смещения и применимости детекторов.

arxiv arXiv cs.AI · 6 д назад

Новый подход DTL для диагностики неисправностей при ограниченном объеме данных

Новый метод глубокой передачи знаний использует нелинейности систем для генерации диагностических данных при крайне ограниченном объеме данных. Данный подход использует периодическую процедуру многократного возбуждения и новую технику визуализации данных для расширения ограниченных данных о вибрациях, что позволяет проводить эффективную диагностику неисправностей с использованием предобученных CNN. Экспериментальные результаты на рельсовом контактном проводе подтверждают эффективность метода.

arxiv arXiv cs.LG · 6 д назад

Самоадаптивная обработка масштабов для прогнозирования временных рядов

Новый модуль, называемый Самоадаптивной обработкой масштабов (AS), решает проблему гетерогенности масштабов в прогнозировании временных рядов. Он использует Калибровку масштабов и Выбор масштабирования для адаптивного регулирования коэффициентов масштабирования, сохраняя семантическую дискриминацию и снижая ошибки обратного масштабирования. Эксперименты на данных о продажах фондов показывают улучшенную производительность при интеграции в существующие прогнозирующие модели.

arxiv arXiv cs.LG · 6 д назад

TESSERA и AlphaEarth встраивания позволяют проводить мелкое картирование LCZ в швейцарских городах

Исследование, охватывающее пять швейцарских городов, сравнивает встраивания TESSERA и AlphaEarth с традиционными данными Sentinel с целью масштабирования карт локальных климатических зон до разрешения 10 метров с использованием U-Net на основе внимания. TESSERA стабильно превосходит как Sentinel-1/2, так и AlphaEarth, достигая показателей IoU от 0,59 до 0,69 и от 0,77 до 0,82. Результаты показывают, что встраивания сокращают ручную предобработку и обеспечивают масштабируемое, воспроизводимое картирование LCZ, хотя для дальнейшего повышения точности ключевую роль играет улучшение исходных данных.

arxiv arXiv cs.LG · 6 д назад

Сравнительное исследование нейронных заменителей для прогноза состояния аккумулятора

Сравнительное исследование оценивает четыре нейронные архитектуры — MLP, ResNet, U-Net и FNO — как автокорреляционные предикторы внутренних состояний аккумулятора с использованием модели Doyle-Fuller-Newman. U-Net достигает среднего значения nRMSE на последнем шаге в 3% по всем переменным состояния и обеспечивает ускорение в 5,38 раз по сравнению с численными решателями, что демонстрирует важность пространственной индуктивной предпосылки в производительности заменителей.

arxiv arXiv cs.LG · 6 д назад

EEG Foundation Models для обнаружения всплесков-подавления в ICU

Исследование оценивает EEG Foundation Models для обнаружения событий всплесков-подавления в ЭЭГ ICU без калибровки по пациенту. REVE-base достиг наивысшего значения F1-с코ра по событиям 0,868 и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet. Результаты аблации показывают, что полная тонкая настройка превосходит другие стратегии, а предварительно обученный REVE-base превосходит случайную инициализацию на 0,723 точки F1 при 25% обучающих данных.

arxiv arXiv cs.LG · 6 д назад

Обнаружение смещения концепций на основе обучаемых моделей: анализ и оценка

Этот исследовательский проект анализирует и оценивает алгоритмы обнаружения смещения концепций в нескольких категориях с использованием синтетических и реальных потоковых данных. В нем рассматриваются характеристики смещения и оцениваются показатели работы детекторов в условиях резких и постепенных смещений, чтобы улучшить понимание поведения смещения и применимости детекторов.