Training data — korshunov.ai — новости ML

Тема · Training data

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 9 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

media Latent Space · 8 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

arxiv arXiv cs.LG · 8 д назад

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Конкатенация признаков, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17.0 +/- 0.3 pp. Измерение дискриминативности LLM в отдельности, Delta_sig, коррелирует с производительностью конкатенации (r^2 = 0.38), и правило на основе Delta_sig <= 13.8 pp корректно предсказывает отсутствие положительного влияния в 7 из 9 датасетов.

arxiv arXiv cs.AI · 9 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.AI · 10 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.CL · 8 д назад

Средние и поздние части научных статей раскрывают ключевую методологическую информацию

Этот исследовательский материал показывает, что методологическая информация в научных статьях распределяется неравномерно, и средние-поздние и конечные части содержат большую дискриминирующую силу. Сочетание этих частей с библиографическими метаданными повышает точность автоматической классификации научных методов в библиотечной и информационной науке.

arxiv arXiv cs.CL · 8 д назад

Выпущен набор данных по ручному письму на урду для исследований UHTR

Набор данных по ручному письму на урду (UKHD) — это новый набор данных для оценки офлайн-рукописных строк на урду, отобранный из исторических записей катиба в настальской каллиграфии. Он оценивает модели на основе CRNN, при этом архитектура CNN-BGRU-CTC показывает наименьшие ошибки, что делает её надежной базой для распознавания ручного письма на урду.

arxiv arXiv cs.AI · 8 д назад

Квантовая аугментация GAN не показывает преимуществ в МРТ мозга

Контролируемый бенчмарк не выявил значимого роста производительности за счёт квантовых генеративных моделей при аугментации МРТ мозга. Синтетические образцы, созданные квантовыми и классическими GAN-моделями, статистически не различались, и оба типа моделей демонстрировали коллапс моделей и образцы за пределами распределения, особенно при низких долях данных. Исследование заключает, что квантовая аугментация не обеспечивает значимого расширения данных и действует скорее как регуляризация.

arxiv arXiv cs.AI · 8 д назад

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Гибридная архитектура LSTM-Видение Трансформер улучшает предсказание ошибок прогноза HRRR за счёт интеграции профилей атмосферы из профилей мезонета. Она обеспечивает улучшение предсказания ошибок осадков до двукратного, особенно в периоды активного планетарного слоя, за счёт более точного отражения эволюции ошибок конвекции и снижения деградации, связанной с планетарным слоем.

arxiv arXiv cs.LG · 8 д назад

Побеждает ли метод сжатия датасетов перед коорсетами?

Большие эксперименты показывают, что современные методы сжатия датасетов сравнимы или хуже, чем выбор коорсетов на ImageNet и ImageNette. Коорсеты стабильно обеспечивают лучшее покрытие данных и являются более вычислительно эффективными, что подчеркивает их практическое превосходство над сжатыми датасетами.

arxiv arXiv cs.CL · 8 д назад

Кодирование словаря Al-Mawrid с использованием ISO LMF и TEI Lex-0

В статье описывается методология цифровизации словаря Al-Mawrid на арабском-английском языке с использованием ISO LMF и TEI Lex-0. Достигается точность структурного парсинга на уровне 91%, а также демонстрируется точность 85% и полнота 98% для синонимов, а также точность 88% для морфосемантических признаков, на основе выборки буквы Айн. В исследовании подчеркиваются ограничения TEI Lex-0 в отражении семантических и морфологических нюансов арабского языка и предлагается масштабируемая система на основе префиксов для интеграции в LLOD.

arxiv arXiv cs.LG · 8 д назад

Использование базы дельта для пересмотра целей улучшает прогнозирование нагрузки на электричество

Метод пересмотра целей на основе дельта улучшает прогнозирование нагрузки на электричество в краткосрочной перспективе, предсказывая изменения нагрузки, а не абсолютные значения. Результаты показывают снижение MAPE более чем на 50% для прогнозов на один час вперед при использовании моделей LSTM и Transformer, с существенными преимуществами для глубоких последовательных моделей в прогнозах на день вперед.

arxiv arXiv cs.LG · 8 д назад

Гибридная модель Ret-DNN с XGBoost для прогнозирования поведения клиентов

Исследование предлагает гибридную модель Ret-DNN с XGBoost для прогнозирования поведения клиентов в электронной коммерции. Используя 500 000 записей транзакций от ритейлера в Великобритании, модель достигает средней абсолютной ошибки 0,2193, превосходя существующую модель Ret-DNN.

arxiv arXiv cs.LG · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многослойную конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частот, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многоуровневую конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частоты, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 8 д назад

Введение C3GD: Публичный набор аудио-данных о выстрелах

Набор аудио-данных о выстрелах Certus Caliber Classification (C3GD) содержит более 8000 образцов аудио выстрелов, собранных в полевых условиях, с 28 оружия в 16 калибров. Он предоставляет подробную метаданные о оружии, калибрах, микрофонах и их расположении, что позволяет проводить надежный академический анализ и практическое применение в обнаружении выстрелов и обработке аудиосигналов.

arxiv arXiv cs.CL · 9 д назад

Производительность Word2Vec в минимальной лексике Toki Pona

Этуд оценивает способность Word2Vec к выявлению семантических связей в языке Toki Pona, который содержит только 130 слов. Используя 1,4 миллиона предложений, исследование показывает, что неосновные токены не нарушают структуру векторов и, возможно, действительно приближают схожие слова в пространстве векторов. Результаты показывают, что эффективность Word2Vec зависит больше от распределительных паттернов, чем от размера лексико-семантического словаря, даже при экстремальной лексической сокращении.

arxiv arXiv cs.CL · 9 д назад

MultiClin Benchmark для мультискриптовой ASR в клинических условиях

MultiClin представляет клинический бенчмарк ASR, который оценивает устойчивость моделей к вариабельности мультискриптов. Оно показывает, что мультискриптовая оценка превосходит традиционные методы с одним эталоном, и унификация скриптов обеспечивает наилучшую производительность ASR, в то время как несогласованные отображения скриптов увеличивают орфографическую неопределённость.

arxiv arXiv cs.CL · 10 д назад

Релиз датасета IMPACTeen в английской и польской версиях

IMPACTeen — это датасет из 1021 текста, аннотированный с пяти сторон — среди подростков, родителей, психологов, экспертов по коммуникации и учителей. В него включены 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с проверкой аннотаций через ручную редакцию. Датасет, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и используется для исследований в области социального влияния и обучения языковых моделей.

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Функции LLM могут навредить GNN через интерференцию при конкатенации

Radical AI достигает ускорения в 10 раз в открытии материалов

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Внешний выпуск данных по заявкам Стэнфорда

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

Средние и поздние части научных статей раскрывают ключевую методологическую информацию

Выпущен набор данных по ручному письму на урду для исследований UHTR

Квантовая аугментация GAN не показывает преимуществ в МРТ мозга

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Побеждает ли метод сжатия датасетов перед коорсетами?

Кодирование словаря Al-Mawrid с использованием ISO LMF и TEI Lex-0

Использование базы дельта для пересмотра целей улучшает прогнозирование нагрузки на электричество

Гибридная модель Ret-DNN с XGBoost для прогнозирования поведения клиентов

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

Введение C3GD: Публичный набор аудио-данных о выстрелах

Производительность Word2Vec в минимальной лексике Toki Pona

MultiClin Benchmark для мультискриптовой ASR в клинических условиях

Релиз датасета IMPACTeen в английской и польской версиях