Training data — korshunov.ai — новости ML

Training data Страница 1 / 4

CDDTLDA: Перенос обучения для дискриминации китайских диалектов

Новую архитектуру под названием CDDTLDA было предложено использовать перенос обучения и усреднение данных для решения задачи дискриминации китайских диалектов при ограниченной аннотации. Модель ASR источника обучается на крупном корпусе диалектов, к ним применяются усреднение скорости, тона и шума для диалектов с низким уровнем ресурсов, а затем модель ASR цели тонко настраивается с использованием самовнимания для выявления общих семантических признаков. Экспериментальные результаты показывают, что CDDTLDA превосходит самые передовые методы на двух проверочных корпусах китайских диалектов.

arxiv arXiv cs.CL · 7 д назад

RegMix-D: динамическое смешивание данных за счёт траекторий обучения через прокси

RegMix-D расширяет RegMix, используя полные траектории потерь из прокси-запусков для динамического выбора смесей данных. Он превосходит RegMix и DoReMi по 13 задачам на последующем этапе, достигая превосходных результатов при использовании всего 128 прокси-моделей — 25% вычислительного бюджета RegMix.

arxiv arXiv cs.CL · 7 д назад

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

SAMA представляет единую платформу, генерирующую синтетические данные высокого качества и ориентированные на задачу, путем синхронизации семантических опор между модальностями. Используется коллаборативная мультимодальная модель с несколькими экспертами, с общей и задачеспецифической адаптацией, и применяется механизм диффузии с сохранением опор для синтеза изображений, обеспечивая семантическую согласованность при разнообразии визуальных контекстов. Широкие эксперименты показывают, что SAMA превосходит самые современные методы по MNER, MRE и MEE при низком уровне ресурсов.

arxiv arXiv cs.CL · 7 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 7 д назад

Дистилляция с синтетическими данными для анализа финансового настроения

Фреймворк передает знания от крупных инструкционно настроенных моделей к компактным моделям с помощью синтетических данных, сгенерированных с помощью структурированного малошагового запроса. Выбор семян на основе кластеризации обеспечивает более репрезентативные синтетические примеры по сравнению с случайным выбором, позволяя компактным моделям достигать высокой производительности при минимальном количестве ручной метки. На сложных, шумных финансовых текстах учащая модель превосходит учителя, при этом оставаясь конкурентоспособной на официальных текстах.

arxiv arXiv cs.CL · 7 д назад

Graph-ESBMC-PLC: Формальная проверка графических программ PLCopen LD

Graph-ESBMC-PLC обеспечивает формальную проверку графических программ IEC 61131-3 на языке схем (Ladder Diagram) за счет введения разрешителя на основе поиска в глубину, который преобразует графические соединения LD в допустимую промежуточную форму представления GOTO. Проверка на трех реальных программах показывает полное генерирование IR и успешную проверку свойств безопасности при k=2 за 70 мс, без регрессии на текстовых бенчмарках.

arxiv arXiv cs.CL · 7 д назад

Средние и поздние части научных статей раскрывают ключевую методологическую информацию

Этот исследовательский материал показывает, что методологическая информация в научных статьях распределяется неравномерно, и средние-поздние и конечные части содержат большую дискриминирующую силу. Сочетание этих частей с библиографическими метаданными повышает точность автоматической классификации научных методов в библиотечной и информационной науке.

arxiv arXiv cs.CL · 7 д назад

Выпущен набор данных по ручному письму на урду для исследований UHTR

Набор данных по ручному письму на урду (UKHD) — это новый набор данных для оценки офлайн-рукописных строк на урду, отобранный из исторических записей катиба в настальской каллиграфии. Он оценивает модели на основе CRNN, при этом архитектура CNN-BGRU-CTC показывает наименьшие ошибки, что делает её надежной базой для распознавания ручного письма на урду.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Квантовая аугментация GAN не показывает преимуществ в МРТ мозга

Контролируемый бенчмарк не выявил значимого роста производительности за счёт квантовых генеративных моделей при аугментации МРТ мозга. Синтетические образцы, созданные квантовыми и классическими GAN-моделями, статистически не различались, и оба типа моделей демонстрировали коллапс моделей и образцы за пределами распределения, особенно при низких долях данных. Исследование заключает, что квантовая аугментация не обеспечивает значимого расширения данных и действует скорее как регуляризация.

arxiv arXiv cs.AI · 7 д назад

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Гибридная архитектура LSTM-Видение Трансформер улучшает предсказание ошибок прогноза HRRR за счёт интеграции профилей атмосферы из профилей мезонета. Она обеспечивает улучшение предсказания ошибок осадков до двукратного, особенно в периоды активного планетарного слоя, за счёт более точного отражения эволюции ошибок конвекции и снижения деградации, связанной с планетарным слоем.

media Latent Space · 7 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

arxiv arXiv cs.LG · 8 д назад

Побеждает ли метод сжатия датасетов перед коорсетами?

Большие эксперименты показывают, что современные методы сжатия датасетов сравнимы или хуже, чем выбор коорсетов на ImageNet и ImageNette. Коорсеты стабильно обеспечивают лучшее покрытие данных и являются более вычислительно эффективными, что подчеркивает их практическое превосходство над сжатыми датасетами.

arxiv arXiv cs.CL · 8 д назад

Кодирование словаря Al-Mawrid с использованием ISO LMF и TEI Lex-0

В статье описывается методология цифровизации словаря Al-Mawrid на арабском-английском языке с использованием ISO LMF и TEI Lex-0. Достигается точность структурного парсинга на уровне 91%, а также демонстрируется точность 85% и полнота 98% для синонимов, а также точность 88% для морфосемантических признаков, на основе выборки буквы Айн. В исследовании подчеркиваются ограничения TEI Lex-0 в отражении семантических и морфологических нюансов арабского языка и предлагается масштабируемая система на основе префиксов для интеграции в LLOD.

arxiv arXiv cs.LG · 8 д назад

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Конкатенация признаков, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17.0 +/- 0.3 pp. Измерение дискриминативности LLM в отдельности, Delta_sig, коррелирует с производительностью конкатенации (r^2 = 0.38), и правило на основе Delta_sig <= 13.8 pp корректно предсказывает отсутствие положительного влияния в 7 из 9 датасетов.

arxiv arXiv cs.LG · 8 д назад

Использование базы дельта для пересмотра целей улучшает прогнозирование нагрузки на электричество

Метод пересмотра целей на основе дельта улучшает прогнозирование нагрузки на электричество в краткосрочной перспективе, предсказывая изменения нагрузки, а не абсолютные значения. Результаты показывают снижение MAPE более чем на 50% для прогнозов на один час вперед при использовании моделей LSTM и Transformer, с существенными преимуществами для глубоких последовательных моделей в прогнозах на день вперед.

arxiv arXiv cs.LG · 8 д назад

Гибридная модель Ret-DNN с XGBoost для прогнозирования поведения клиентов

Исследование предлагает гибридную модель Ret-DNN с XGBoost для прогнозирования поведения клиентов в электронной коммерции. Используя 500 000 записей транзакций от ритейлера в Великобритании, модель достигает средней абсолютной ошибки 0,2193, превосходя существующую модель Ret-DNN.

arxiv arXiv cs.LG · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многослойную конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частот, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многоуровневую конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частоты, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 8 д назад

Введение C3GD: Публичный набор аудио-данных о выстрелах

Набор аудио-данных о выстрелах Certus Caliber Classification (C3GD) содержит более 8000 образцов аудио выстрелов, собранных в полевых условиях, с 28 оружия в 16 калибров. Он предоставляет подробную метаданные о оружии, калибрах, микрофонах и их расположении, что позволяет проводить надежный академический анализ и практическое применение в обнаружении выстрелов и обработке аудиосигналов.