Training data — korshunov.ai — новости ML

Training data Страница 1 / 4

Кадр VibrantForests отображает структуру лесов с разрешением 10 метров

Кадр VibrantForests использует данные спутников, обученные на образцах лазерного сканирования, для создания ежегодных, полных по территории карт покрытия крон, высоты, биомассы, базовой площади и квадратичного среднего диаметра на территории непрерывного Соединённых Штатов с разрешением 10 метров. Он повышает точность, сокращая переоценку в редких лесах и недооценку в плотных лесах, расширяя диапазон надежных прогнозов за пределы традиционных моделей, основанных на пассивных сенсорах.

arxiv arXiv cs.LG · 6 д назад

Гибридная модель предсказывает динамику микроорганизмов в почвенных системах

Новая гибридная модель использует геномные данные и нейронные сети для прогнозирования биокинетических параметров в моделях распада органического вещества в почве. В нее включены экологические ограничения, чтобы обеспечить реалистичную динамику микроорганизмов, даже для неизмеряемых переменных, и превосходит существующие методы как на синтетических, так и на реальных данных при минимальном объеме обучающих данных.

arxiv arXiv cs.CL · 6 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

arxiv arXiv cs.CL · 6 д назад

Алгоритм для определения нот и ключей в музыкальной транскрипции

Новый алгоритм оценивает названия нот, ключи и локальные шкалы на основе входных данных, аналогичных MIDI, путем совместной оптимизации модальных и тональных стадий. Он был проверен на жазз-сопровождениях, соло-транскрипциях, традиционных мелодиях и классических пьесах для пианино, с дополнительными расстояниями, определенными между распространенными жазз-шкалами для музыкальных исследований.

arxiv arXiv cs.CL · 6 д назад

CzechDocs: Параллельный набор данных для перевода документов на малые языки

CzechDocs — это многоканальный параллельный набор данных, содержащий оформленные документы в форматах HTML, DOCX и PDF, охватывающие чешский язык и малые языки, такие как украинский, английский, вьетнамский и русский. Набор поддерживает оценку систем машинного перевода, сохраняющих форматирование документов, и включает подмножество для проверки и открытый инструментарий для оценки. Будет использоваться отдельный тестовый набор для будущего совместного задания по переводу документов с сохранением форматирования.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

media r/LocalLLaMA · 7 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.

arxiv arXiv cs.LG · 7 д назад

Автоматизированный фреймворк для задержанных и ложных триггеров системы аварийного торможения

Новая автоматизированная система решает проблему экстремального несбалансированного класса и асимметричной шумовой помехи в данных автономной системы аварийного торможения. Она использует целенаправленное расширение данных и подавление шума для выявления редких задержанных и ложных триггеров с улучшением выявления на 80% и сокращением ручной аннотации на 50%, что позволяет обеспечивать непрерывное самоулучшение в оптимизации системы аварийного торможения в автомобиле.

arxiv arXiv cs.LG · 7 д назад

XGBoost-Forget для машинного забвения в обнаружении сетевых инцидентов

XGBoost-Forget обеспечивает эффективное машинное забвение для моделей XGBoost на табличных сетевых данных об инцидентах. Оно сохраняет производительность модели, при этом обеспечивает более быстрое забвение по сравнению с полным переобучением, решая пробел в исследованиях машинного забвения для табличных данных в обнаружении сетевых инцидентов.

arxiv arXiv cs.LG · 7 д назад

SCAN: Многоуровневое кластерное моделирование для обнаружения аномалий в временных рядах

SCAN улучшает методы обнаружения аномалий в временных рядах на основе реконструкции, интегрируя многоуровневое кластерное моделирование, основанное на окрестностях. Метод использует представления центров кластеров для ограничения реконструкции нормальных паттернов и получает оценку вероятности аномалии на основе вероятности принадлежности к кластеру и ошибки реконструкции. Широкие эксперименты на реальных данных показывают, что SCAN достигает наилучших результатов.

arxiv arXiv cs.LG · 7 д назад

Оптимизация климатических сценариев повышает обобщение эмулятора

Новый метод использует дифференцируемую простую климатическую модель для оптимизации сценариев обучения, что улучшает обобщение эмулятора. Обучение на одной оптимизированной сценарии превосходит шесть стандартных сценариев ScenarioMIP, и такие сценарии дают более точные эмуляторы при использовании с моделями средней сложности, несмотря на меньший размер набора данных.

arxiv arXiv cs.LG · 7 д назад

Каталог Chandra-Gaia использует машинное обучение для разрешения соответствий между источниками рентгеновского и оптического излучения

Машинный интеллект разрешает неопределённые соответствия между источниками рентгеновского излучения Chandra и оптического излучения Gaia, используя данные о яркости, цвете и расстоянии. Он идентифицирует соответствия для 113 000 из 254 000 источников Chandra, находит вероятные несколько соответствий для 7 000 и проверяет свою производительность на обзоре COUP с точностью 95% без данных о положении.

arxiv arXiv cs.LG · 7 д назад

LOCUS: локальная коллекция законов для США

LOCUS предоставляет машинно-читаемый доступ к муниципальным и округовым постановлениям США, охватывающим 9239 городов и округов. В нём содержится слой, синхронизированный по округам, для 2309 из 3144 округов США, охватывающих большинство населения. Корпус, построенный с использованием распознавания печатных символов и метаданных, позволяет проводить исследования по правовой неясности и патернализму с использованием моделей на базе ModernBERT.

arxiv arXiv cs.AI · 7 д назад

XGBoost-Forget для машинного забвения в системах обнаружения сетевых инцидентов

XGBoost-Forget обеспечивает эффективное машинное забвение для моделей XGBoost на табличных сетевых данных об инцидентах. Оно сохраняет производительность модели, при этом обеспечивает более быстрое забвение по сравнению с полным переобучением, решая пробел в исследованиях машинного забвения для табличных данных в системах обнаружения сетевых инцидентов.

arxiv arXiv cs.AI · 7 д назад

Классификация связывает потребности присматривающих с технологиями в области психического здоровья

Новая классификация связывает психическое здоровье присматривающих при болезни Альцгеймера и деменции с технологическими вмешательствами. Она выявляет пробелы в поддержке таких вопросов, как напряжение в отношениях и выгорание сострадания, и предлагает общую рамку для проектирования технологий, ориентированных на человека и основанных на клинических данных.

arxiv arXiv cs.CL · 7 д назад

LOCUS: локальная корпорация нормативных актов для Соединенных Штатов

LOCUS предоставляет машинно-читаемый доступ к почти всем публично доступным нормативным актам муниципальных и городских органов США, охватывая 9239 городов и округов. В нем включена гармонизированная доступная слоистая структура для 2309 из 3144 округов США, охватывающих большинство населения. Корпора, построенная с использованием распознавания печатных символов и метаданных для воспроизводимости, позволяет проводить масштабный анализ местного законодательства, включая такие параметры, как прозрачность и патернализм, с использованием моделей на базе ModernBERT.

arxiv arXiv cs.LG · 7 д назад

Семи-наблюдаемое кластерное моделирование с использованием а-контра-аномалии

Новое кластерное решение использует а-контра-аномалию для определения кластеров как максимальных подмножеств без аномалий при нулевой гипотезе о случайности. Алгоритм Perception идентифицирует выбросы с использованием порога на основе ожидания (\mathbb{E} < 1), обеспечивая устойчивое кластерное моделирование без параметров, которое расширяется от минимальных исходных данных и эффективно справляется с шумом и появляющимися кластерами.

arxiv arXiv cs.LG · 7 д назад

Проверка адаптации на этапе тестирования с использованием метода потокового соответствия для уменьшения шумов в изображениях ОКТ

Метод на основе потокового соответствия выравнивает изображения ОКТ на этапе тестирования с синтетическими эталонными траекториями, обеспечивая совпадение распределений гистограмм для снижения несоответствий пикселей, вызванных шумом. Устранение зависимости от времени позволяет модели адаптироваться к реальным вариациям шума, обеспечивая наилучшее качество сегментации биомаркеров на стадиях возрастной дегенерации сетчатки.

arxiv arXiv cs.LG · 7 д назад

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Гибридная архитектура LSTM-Видение Трансформер улучшает предсказание ошибок прогноза HRRR за счет интеграции профилей атмосферы из профилей мезонета. Она обеспечивает улучшение предсказания ошибок осадков до вдвое, особенно в периоды активной планетарной подстилки, за счет лучшего учета эволюции ошибок конвекции и снижения деградации, связанной с планетарной подстилкой.

arxiv arXiv cs.LG · 7 д назад

Оптимизация интервалов последующих визитов с учётом контекста для диабета 2 типа

Исследование использует контекстуальный марковский процесс принятия решений для оптимизации интервалов последующих визитов для пациентов с диабетом 2 типа на основе данных электронных медицинских записей 22 154 пациентов. Модель выявляет два клинических контекста — низкий и высокий риск — и рекомендует адаптивные интервалы: 1 месяц для неизмеренных лабораторных показателей, до 3 месяцев для повышенных значений или госпитализаций, и 6–12 месяцев для стабильного контроля, при этом интервалы для пациентов с высоким риском короче. Политики CMDP сократили ожидаемые накопленные расходы на 34,8% в контексте высокой сопутствующей патологии и на 6,4% в контексте низкой сопутствующей патологии по сравнению с политикой с фиксированным интервалом.