Все статьи
media r/LocalLLaMA · 5 ч назад

SupraWeather-Nano-Preview: небольшой FT-Transformer для классификации погоды

Компания SupraLabs выпустила модель SupraWeather-Nano, предварительную версию, предназначенную для классификации погодных явлений по сырым табличным метеорологическим данным. Архитектура использует выделенный Feature Tokenizer и Transformer Encoder, где каждому входному признаку присваивается свой обучаемый токен, который агрегируется токеном CLS перед обработкой через небольшой стек трансформеров. Такой подход устраняет необходимость в текстовых вводах или системных подсказках, позволяя пользователям напрямую вводить числовые значения для получения результата классификации. Модель принимает девять конкретных входных параметров: температуру, влажность, давление, тренд давления, скорость ветра, направление ветра, высоту, месяц и воздушную массу. Она обучена исключительно на синтетическом наборе данных, сгенерированном методами, основанными на правилах, содержащем 120 000 образцов. SupraLabs отмечает, что это эксперимент с архитектурой, а не инструмент для реального прогнозирования, при этом успешно пройдено пять из шести внутренних стресс-тестов.

arxiv arXiv cs.CL · 5 ч назад

HIPE-2026: Извлечение отношений «персона — место» из многоязычных исторических текстов

Кампания HIPE-2026 решает задачу извлечения отношений между персонами и местами из зашумленных многоязычных исторических документов. В отличие от предыдущих выпусков, ориентированных на распознавание именованных сущностей, эта третья итерация нацелена на отношения, привязанные ко времени и помеченные как 'at' (в) и 'isAt' (находится в). В оценке участвовали 17 команд, обрабатывавших данные на французском, немецком и английском языках в рамках трех различных наборов данных. Эти наборы данных включали тексты газет XIX и XX веков, а также неожиданный доменный набор ранних современных французских литературных произведений. Важной особенностью кампании стала трехуровневая система оценки, измеряющая предсказательную точность, вычислительную эффективность и обобщающую способность в разных доменах. Результаты более 40 отправленных запусков продемонстрировали широкое разнообразие стратегий — от больших языковых моделей до легких классификаторов. Полученные выводы подчеркивают присущие компромиссы между точностью, эффективностью и устойчивостью при извлечении отношений в масштабных исторических текстах.

arxiv arXiv cs.CL · 6 ч назад

Ткань формального мышления: Объединение строгого синтаксического валидирования с обученными структурными представлениями

Авторы представляют Weave of Formal Thought (WoFT), парадигму, сочетающую строгое синтаксическое валидирование с обученными структурными представлениями для генерации кода. Подход использует формальный движок и ограниченный декодер, которые являются корректными и полными относительно полной спецификации Tree-sitter. За счет дополнения обобщенного LR-разбора спекулятивным лексическим анализом система поддерживает гипотезы состояний лексера параллельно, допуская валидные префиксы программ и отклоняя невалидные. Кроме того, WoFT применяет тонкую настройку с латентными переменными для обучения моделей напрямую вплетать нетерминальные символы грамматики в процесс генерации. Этот метод использует алгоритм переобвешенного wake-sleep для оптимизации важностно-взвешенной нижней границы доказательства (ELBO) поверхностного текста. Модель учится избирательно сохранять формальные выводы в качестве адаптивной структурной черновиковой памяти во время вывода. Эксперименты на Python показывают, что тонкая настройка StarCoder2-3B с данной целевой функцией снижает перетоковую кросс-энтропию на 14,3% по сравнению с базовой линией, использующей только текст.

github llama.cpp · 6 ч назад

llama.cpp b9788 добавляет параллелизм тензоров по SYCL для конфигураций с двумя GPU

В релизе llama.cpp b9788 добавлена поддержка параллелизма тензоров через флаг --split-mode tensor в бэкенде SYCL. Эта реализация обеспечивает взаимодействие между двумя GPU путём добавления функций comm_init, comm_free и comm_allreduce_tensor в мета-бэкенд. Для двух устройств используется стратегия ring all-reduce, которая переключается между прямым копированием FP32 для малых тензоров и сжатием BF16 для больших. Код избегает использования OneCCL из-за его ограничения на один процесс на устройство, вместо этого применяя постоянные буферы для сохранения инвариантов пула SYCL. Тесты производительности на двух GPU Intel Arc Pro B70 показали значительное ускорение по сравнению с режимом слоёв для моделей Llama-3.3-70B и Qwen3-Coder-Next-80B-A3B. Обновление включает новые бинарные файлы для macOS, Linux, Windows, Android и openEuler для целевых платформ CPU, CUDA, ROCm, Vulkan и SYCL.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9789 исправляет квантование MoE и предоставляет бинарные файлы для нескольких платформ

Проект llama.cpp выпустил версию b9789, которая включает критическое исправление для квантования моделей Mixture of Experts (MoE) с многозадачным предсказанием. Это обновление устраняет проблемы, выявленные в pull request #24986, чтобы обеспечить корректную обработку этих специфических архитектур моделей. Выпуск предоставляет предварительно собранные бинарные файлы для macOS на базе Apple Silicon и Intel, а также iOS XCFramework. Пользователи Linux могут загрузить сборки для Ubuntu с поддержкой бэкендов CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL. Поддержка Windows включает варианты для CPU, CUDA 12.4 и 13.3, Vulkan, OpenVINO, SYCL и HIP. Дополнительные платформы, такие как Android arm64 и openEuler, также поддерживаются при наличии конкретных аппаратных конфигураций.

arxiv arXiv cs.CL · 6 ч назад

SpeechEQ: Оценка эмоционального интеллекта в социально-ориентированных голосовых диалоговых моделях

Авторы представляют SpeechEQ — комплексную рамку для оценки социолингвистического мышления моделей обработки речи и языка. Существующие методы оценки часто упускают из виду сложное кросс-модальное рассуждение, необходимое для активного диалога, полагаясь на изолированный текст или пассивное акустическое восприятие. Фреймворк включает валидированный набор данных из 2265 диалогов по 15 подшкалам эмоционального интеллекта (EQ), основанным на теории EQ-i 2.0. Он также содержит протокол многошаговой оценки, измеряемый с помощью предложенного показателя Spoken EQ, вдохновленного оценками человеческого EQ. Эксперименты выявляют ограничения в том, как системы распознавания эмоций по речи и сквозные (end-to-end) модели понимают паралингвистические признаки через речь. Хотя сквозные архитектуры превосходят каскадные системы, современные мультимодальные модели остаются ограниченными рядом специфических проблем. Эти барьеры включают модальное укорочение, зависящее от текста, ловушку безопасности, индуцированную выравниванием, и контекстную амнезию.

arxiv arXiv cs.CL · 6 ч назад

Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных

Авторы представляют Autodata — общий метод, позволяющий ИИ-агентам функционировать в роли дата-сайентистов для построения высококачественных обучающих и оценочных наборов данных. Подход включает метаоптимизацию этих агентов, чтобы они учились генерировать всё более сильные данные посредством процесса под названием Agentic Self-Instruct. Эксперименты проводились в задачах компьютерных наук, юридическом рассуждении и рассуждении о математических объектах. Результаты демонстрируют, что этот метод создания данных на основе агентов обеспечивает улучшенную производительность по сравнению с классическими методами создания синтетических наборов данных. Кроме того, метаоптимизация самого агента-дата-сайентиста даёт ещё более значительный прирост производительности. Эта работа иллюстрирует, как увеличение вычислительных ресурсов на этапе вывода (inference) может быть преобразовано в данные для обучения моделей более высокого качества. Авторы предполагают, что это направление имеет потенциал фундаментально изменить подход к созданию ИИ-данных.

arxiv arXiv cs.CL · 6 ч назад

Dziri Voicebot: система преобразования речи в речь от начала до конца для алжирского диалекта

В статье представлен Dziri Voicebot, сквозная разговорная система преобразования речи в речь, разработанная для малоресурсного алжирского диалекта. Эта работа расширяет предыдущие усилия по моделированию диалогов на основе текста, предпринятые Бешери и Ланасри, до полноценного речевого взаимодействия. Предложенный модульный конвейер объединяет автоматическое распознавание речи, понимание естественного языка, генерацию с дополнением извлечениями (retrieval-augmented generation) и синтез речи из текста. Были созданы специализированные наборы данных для телекоммуникационной области для дообучения предобученных моделей для каждого компонента. Система ASR использует адаптацию на основе Whisper, а модуль NLU объединяет трансформерные эмбеддинги с фреймворком ориентированных на задачу диалогов. Нейросеть TTS была обучена на новом собранном корпусе диалектных данных для обеспечения генерации речевых ответов. Экспериментальные результаты демонстрируют высокую производительность всех компонентов, включая низкий уровень ошибки слов и высокие показатели классификации намерений.

lab OpenAI News · 6 ч назад

Исследование OpenAI: ИИ-агенты трансформируют работу

Новый исследовательский документ от OpenAI демонстрирует, как агенты искусственного интеллекта фундаментально меняют характер труда. В исследовании подчеркивается способность этих агентов выполнять более длительные и сложные задачи по сравнению с тем, что было возможно ранее. Этот технологический прорыв способствует росту производительности в самых разных профессиональных ролях. Результаты указывают на существенный сдвиг в организации и выполнении работы благодаря автоматизации. Обрабатывая сложные рабочие процессы, ИИ-агенты позволяют пользователям достигать большей эффективности. Документ служит доказательством растущего влияния автономных систем на современную занятость.

arxiv arXiv cs.CL · 7 ч назад

Tatoxa: новая система детоксикации текстов для малоресурсного татарского языка

В статье представлена Tatoxa — современная система, предназначенная для автоматической детоксикации текстов на малоресурсном татарском языке. Эта работа решает проблему недостатка исследовательского внимания к смягчению последствий оскорбительного контента в языках с ограниченными цифровыми ресурсами. Авторы представляют новый набор данных, специально созданный для тонкой настройки и оценки моделей детоксикации в условиях таких ограничений. Сравнительные эксперименты показывают, что Tatoxa превосходит как существующие модели больших языковых моделей с открытым исходным кодом, так и проприетарные коммерческие решения по ключевым метрикам качества. Кроме того, исследование изучает возможности кросс-язычного переноса для оценки целесообразности использования данных из других языков. Результаты указывают на то, что обучение на родных татарских данных значительно эффективнее, чем перенос знаний из культурно близких языков, таких как русский. Даже при наличии большого корпуса русских текстов кросс-язычные подходы показывают худшие результаты по сравнению с моделями, обученными исключительно на нативных татарских текстах.

arxiv arXiv cs.CL · 7 ч назад

Коллапс многошагового использования инструментов в RL и надзорные исправления

Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.

arxiv arXiv cs.CL · 7 ч назад

Обнаружение, отмена обучения и восстановление: защита моделей суммаризации текста от отравления данных

Исследование рассматривает угрозу отравления данных на этапе обучения при тонкой настройке моделей абстрактной суммаризации текста. Злоумышленники манипулируют небольшими специфичными для задачи наборами данных, чтобы вызвать устойчивые ошибки суммаризации, сохраняя при этом стандартные показатели оценки. Предлагается единая пост-гочная (post-hoc) защитная рамка для обнаружения и устранения отравления во всей цепочке поставок машинного обучения. В условиях white-box обнаружение опирается на анализ функций влияния, выявляющий аномально высокое влияние обучения в отравленных парах. Защитные механизмы black-box используют поведенческий аудит, основанный на повышенной чувствительности к возмущениям, сохраняющим семантику. Авторы представляют новые атаки, направленные на искажение фактов и репрезентативное смещение, которые обходят традиционные системы оповещения. Эксперименты с девятью архитектурами и шестью бенчмарками показывают точность обнаружения 85-92% для предложенных защитных механизмов. Отмена обучения методом градиентного восхождения восстанавливает до 96% исходного поведения при снижении показателя ROUGE менее чем на 0,6%.

arxiv arXiv cs.CL · 7 ч назад

Исследование выявило: читатели предпочитают человеческие литературные переводы машинным, несмотря на адекватное качество последних

Недавнее исследование изучило предпочтения читателей относительно ИИ- и человеческих переводов литературных произведений, отметив, что, хотя автоматические метрики часто отдают предпочтение машинному выводу, они не способны уловить иммерсивные и литературные эффекты. Исследователи попросили 15 заядлых читателей сравнить человеческие переводы с переводами, сгенерированными агентной конвейерной системой LLM (agentic LLM pipeline), для 15 романов на французском, польском и японском языках. Оценка проводилась по отрывкам объемом около 8 тысяч слов как при иммерсивном чтении целых текстов, так и при детальном чтении выровненных пар фрагментов. Результаты показали, что, хотя читатели считали машинные переводы адекватными, они значительно предпочли человеческие версии благодаря их ясности и легкости погружения в текст. Примечательно, что участники не могли надежно различать два типа переводов и склонялись к той версии, которую считали созданной человеком. В поддержку будущих исследований авторы опубликовали LAIT — ориентированный на читателей датасет, содержащий 1K комментариев, 2K оценок и 7,2K аннотаций на уровне фрагментов.

arxiv arXiv cs.CL · 7 ч назад

Оценка устойчивости к визуальным возмущениям OCR-рассуждений в моделях «зрение-язык»

Авторы представляют OCR-Robust, бенчмарк, предназначенный для оценки устойчивости моделей «зрение-язык» при выполнении задач OCR-рассуждений в условиях визуальных возмущений. Датасет состоит из 812 примеров, разделенных на два подмножества: OCR1.0, охватывающее документы и рукописный текст, и OCR2.0, фокусирующееся на графиках и таблицах. Пилотное исследование выявило пять репрезентативных типов возмущений на трех уровнях серьезности для обеспечения эффективной оценки. В исследовании протестированы 18 моделей, включая проприетарные системы и открытые VLM (vision-language models), с использованием таких метрик, как Relative Corruption Retention и Worst-Case Retention. Результаты показывают, что более высокая точность на чистых данных не обязательно коррелирует с большей устойчивостью к визуальной деградации. Кроме того, анализ выявляет, что графики и таблицы существенно более хрупки по сравнению с входными данными, похожими на документы, при воздействии этих возмущений.

media Hugging Face Forums · 7 ч назад

Bro77XP выпустил простой для начинающих локальный AI-VTuber с клонированием голоса в zero-shot режиме

Bro77XP выпустил полностью локальный бесплатный проект AI-VTuber, предназначенный для начинающих и непрограммистов. Система использует Whisper для распознавания английской речи в реальном времени, Ollama с моделью llama3.2 для вывода LLM и Chatterbox TTS для преобразования текста в речь. Она поддерживает мгновенное клонирование голоса в zero-shot режиме и работает в цикле непрерывного прослушивания, автоматически обнаруживая тишину и записывая звук только при наличии речи. Программное обеспечение интегрируется с VTube Studio через его API для управления выражениями рта и запуска анимаций эмоций на основе сгенерированных ответов. Хотя изначально проект разрабатывался на GPU AMD, код в основном поддерживает пользователей CPU, позволяя работать без специфического оборудования NVIDIA или AMD. Для настройки требуется Python 3.10.11 и создание виртуального окружения для установки основных зависимостей, таких как openai-whisper, pyaudio и websocket-client.

arxiv arXiv cs.CL · 7 ч назад

Естественное забывание: асимметричный контроль того, какие правила переживают препетрен

Исследование выявило феномен «естественного забывания» (natural ungrokking), при котором небольшие языковые модели теряют изученные грамматические правила на полпути препетрена, несмотря на то, что доказательства их существования остаются в данных. Исследователи наблюдали, как модель, обучающаяся согласованию местоимений и рода с Sue, упала с точности 0,94 до уровня, близкого к нулю, к шагу 3500 без какого-либо соответствующего всплеска на кривой функции потерь. Выживание этих правил определяется частотой поддержки в обучающей выборке, тогда как отношение данных к параметрам лишь модулирует глубину падения. Эта динамика возникновения и последующего коллапса была воспроизведена на нескольких корпусах, бюджетах и начальных условиях (seeds) и подтверждена на публичных контрольных точках Pythia, где глубина коллапса коррелировала с масштабом модели. Процесс забывания действует как механизм вытеснения, при котором конкурирующий поверхностный паттерн побеждает правило, заставляя маржу логарифмической вероятности пересечь ноль в течение 100 шагов после поведенческого отказа. Контроль над этой судьбой асимметричен: хотя введение контрдоказательств может уничтожить правила посредством монотонной зависимости «доза-эффект», восстановление поддержки даже на уровне, в 450 раз превышающем поддерживающий уровень, не позволяет их восстановить.

arxiv arXiv cs.CL · 7 ч назад

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 8 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 8 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 8 ч назад

Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования

Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.