Все статьи
github llama.cpp · 4 ч назад

llama.cpp b9788 добавляет параллелизм тензоров по SYCL для конфигураций с двумя GPU

В релизе llama.cpp b9788 добавлена поддержка параллелизма тензоров через флаг --split-mode tensor в бэкенде SYCL. Эта реализация обеспечивает взаимодействие между двумя GPU путём добавления функций comm_init, comm_free и comm_allreduce_tensor в мета-бэкенд. Для двух устройств используется стратегия ring all-reduce, которая переключается между прямым копированием FP32 для малых тензоров и сжатием BF16 для больших. Код избегает использования OneCCL из-за его ограничения на один процесс на устройство, вместо этого применяя постоянные буферы для сохранения инвариантов пула SYCL. Тесты производительности на двух GPU Intel Arc Pro B70 показали значительное ускорение по сравнению с режимом слоёв для моделей Llama-3.3-70B и Qwen3-Coder-Next-80B-A3B. Обновление включает новые бинарные файлы для macOS, Linux, Windows, Android и openEuler для целевых платформ CPU, CUDA, ROCm, Vulkan и SYCL.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9789 исправляет квантование MoE и предоставляет бинарные файлы для нескольких платформ

Проект llama.cpp выпустил версию b9789, которая включает критическое исправление для квантования моделей Mixture of Experts (MoE) с многозадачным предсказанием. Это обновление устраняет проблемы, выявленные в pull request #24986, чтобы обеспечить корректную обработку этих специфических архитектур моделей. Выпуск предоставляет предварительно собранные бинарные файлы для macOS на базе Apple Silicon и Intel, а также iOS XCFramework. Пользователи Linux могут загрузить сборки для Ubuntu с поддержкой бэкендов CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL. Поддержка Windows включает варианты для CPU, CUDA 12.4 и 13.3, Vulkan, OpenVINO, SYCL и HIP. Дополнительные платформы, такие как Android arm64 и openEuler, также поддерживаются при наличии конкретных аппаратных конфигураций.

arxiv arXiv cs.CL · 4 ч назад

SpeechEQ: Оценка эмоционального интеллекта в социально-ориентированных голосовых диалоговых моделях

Авторы представляют SpeechEQ — комплексную рамку для оценки социолингвистического мышления моделей обработки речи и языка. Существующие методы оценки часто упускают из виду сложное кросс-модальное рассуждение, необходимое для активного диалога, полагаясь на изолированный текст или пассивное акустическое восприятие. Фреймворк включает валидированный набор данных из 2265 диалогов по 15 подшкалам эмоционального интеллекта (EQ), основанным на теории EQ-i 2.0. Он также содержит протокол многошаговой оценки, измеряемый с помощью предложенного показателя Spoken EQ, вдохновленного оценками человеческого EQ. Эксперименты выявляют ограничения в том, как системы распознавания эмоций по речи и сквозные (end-to-end) модели понимают паралингвистические признаки через речь. Хотя сквозные архитектуры превосходят каскадные системы, современные мультимодальные модели остаются ограниченными рядом специфических проблем. Эти барьеры включают модальное укорочение, зависящее от текста, ловушку безопасности, индуцированную выравниванием, и контекстную амнезию.

arxiv arXiv cs.CL · 4 ч назад

Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных

Авторы представляют Autodata — общий метод, позволяющий ИИ-агентам функционировать в роли дата-сайентистов для построения высококачественных обучающих и оценочных наборов данных. Подход включает метаоптимизацию этих агентов, чтобы они учились генерировать всё более сильные данные посредством процесса под названием Agentic Self-Instruct. Эксперименты проводились в задачах компьютерных наук, юридическом рассуждении и рассуждении о математических объектах. Результаты демонстрируют, что этот метод создания данных на основе агентов обеспечивает улучшенную производительность по сравнению с классическими методами создания синтетических наборов данных. Кроме того, метаоптимизация самого агента-дата-сайентиста даёт ещё более значительный прирост производительности. Эта работа иллюстрирует, как увеличение вычислительных ресурсов на этапе вывода (inference) может быть преобразовано в данные для обучения моделей более высокого качества. Авторы предполагают, что это направление имеет потенциал фундаментально изменить подход к созданию ИИ-данных.

arxiv arXiv cs.CL · 4 ч назад

Dziri Voicebot: система преобразования речи в речь от начала до конца для алжирского диалекта

В статье представлен Dziri Voicebot, сквозная разговорная система преобразования речи в речь, разработанная для малоресурсного алжирского диалекта. Эта работа расширяет предыдущие усилия по моделированию диалогов на основе текста, предпринятые Бешери и Ланасри, до полноценного речевого взаимодействия. Предложенный модульный конвейер объединяет автоматическое распознавание речи, понимание естественного языка, генерацию с дополнением извлечениями (retrieval-augmented generation) и синтез речи из текста. Были созданы специализированные наборы данных для телекоммуникационной области для дообучения предобученных моделей для каждого компонента. Система ASR использует адаптацию на основе Whisper, а модуль NLU объединяет трансформерные эмбеддинги с фреймворком ориентированных на задачу диалогов. Нейросеть TTS была обучена на новом собранном корпусе диалектных данных для обеспечения генерации речевых ответов. Экспериментальные результаты демонстрируют высокую производительность всех компонентов, включая низкий уровень ошибки слов и высокие показатели классификации намерений.

lab OpenAI News · 4 ч назад

Исследование OpenAI: ИИ-агенты трансформируют работу

Новый исследовательский документ от OpenAI демонстрирует, как агенты искусственного интеллекта фундаментально меняют характер труда. В исследовании подчеркивается способность этих агентов выполнять более длительные и сложные задачи по сравнению с тем, что было возможно ранее. Этот технологический прорыв способствует росту производительности в самых разных профессиональных ролях. Результаты указывают на существенный сдвиг в организации и выполнении работы благодаря автоматизации. Обрабатывая сложные рабочие процессы, ИИ-агенты позволяют пользователям достигать большей эффективности. Документ служит доказательством растущего влияния автономных систем на современную занятость.

arxiv arXiv cs.CL · 4 ч назад

Tatoxa: новая система детоксикации текстов для малоресурсного татарского языка

В статье представлена Tatoxa — современная система, предназначенная для автоматической детоксикации текстов на малоресурсном татарском языке. Эта работа решает проблему недостатка исследовательского внимания к смягчению последствий оскорбительного контента в языках с ограниченными цифровыми ресурсами. Авторы представляют новый набор данных, специально созданный для тонкой настройки и оценки моделей детоксикации в условиях таких ограничений. Сравнительные эксперименты показывают, что Tatoxa превосходит как существующие модели больших языковых моделей с открытым исходным кодом, так и проприетарные коммерческие решения по ключевым метрикам качества. Кроме того, исследование изучает возможности кросс-язычного переноса для оценки целесообразности использования данных из других языков. Результаты указывают на то, что обучение на родных татарских данных значительно эффективнее, чем перенос знаний из культурно близких языков, таких как русский. Даже при наличии большого корпуса русских текстов кросс-язычные подходы показывают худшие результаты по сравнению с моделями, обученными исключительно на нативных татарских текстах.

arxiv arXiv cs.CL · 4 ч назад

Коллапс многошагового использования инструментов в RL и надзорные исправления

Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.

arxiv arXiv cs.CL · 4 ч назад

Обнаружение, отмена обучения и восстановление: защита моделей суммаризации текста от отравления данных

Исследование рассматривает угрозу отравления данных на этапе обучения при тонкой настройке моделей абстрактной суммаризации текста. Злоумышленники манипулируют небольшими специфичными для задачи наборами данных, чтобы вызвать устойчивые ошибки суммаризации, сохраняя при этом стандартные показатели оценки. Предлагается единая пост-гочная (post-hoc) защитная рамка для обнаружения и устранения отравления во всей цепочке поставок машинного обучения. В условиях white-box обнаружение опирается на анализ функций влияния, выявляющий аномально высокое влияние обучения в отравленных парах. Защитные механизмы black-box используют поведенческий аудит, основанный на повышенной чувствительности к возмущениям, сохраняющим семантику. Авторы представляют новые атаки, направленные на искажение фактов и репрезентативное смещение, которые обходят традиционные системы оповещения. Эксперименты с девятью архитектурами и шестью бенчмарками показывают точность обнаружения 85-92% для предложенных защитных механизмов. Отмена обучения методом градиентного восхождения восстанавливает до 96% исходного поведения при снижении показателя ROUGE менее чем на 0,6%.

arxiv arXiv cs.CL · 4 ч назад

Исследование выявило: читатели предпочитают человеческие литературные переводы машинным, несмотря на адекватное качество последних

Недавнее исследование изучило предпочтения читателей относительно ИИ- и человеческих переводов литературных произведений, отметив, что, хотя автоматические метрики часто отдают предпочтение машинному выводу, они не способны уловить иммерсивные и литературные эффекты. Исследователи попросили 15 заядлых читателей сравнить человеческие переводы с переводами, сгенерированными агентной конвейерной системой LLM (agentic LLM pipeline), для 15 романов на французском, польском и японском языках. Оценка проводилась по отрывкам объемом около 8 тысяч слов как при иммерсивном чтении целых текстов, так и при детальном чтении выровненных пар фрагментов. Результаты показали, что, хотя читатели считали машинные переводы адекватными, они значительно предпочли человеческие версии благодаря их ясности и легкости погружения в текст. Примечательно, что участники не могли надежно различать два типа переводов и склонялись к той версии, которую считали созданной человеком. В поддержку будущих исследований авторы опубликовали LAIT — ориентированный на читателей датасет, содержащий 1K комментариев, 2K оценок и 7,2K аннотаций на уровне фрагментов.

arxiv arXiv cs.CL · 5 ч назад

Оценка устойчивости к визуальным возмущениям OCR-рассуждений в моделях «зрение-язык»

Авторы представляют OCR-Robust, бенчмарк, предназначенный для оценки устойчивости моделей «зрение-язык» при выполнении задач OCR-рассуждений в условиях визуальных возмущений. Датасет состоит из 812 примеров, разделенных на два подмножества: OCR1.0, охватывающее документы и рукописный текст, и OCR2.0, фокусирующееся на графиках и таблицах. Пилотное исследование выявило пять репрезентативных типов возмущений на трех уровнях серьезности для обеспечения эффективной оценки. В исследовании протестированы 18 моделей, включая проприетарные системы и открытые VLM (vision-language models), с использованием таких метрик, как Relative Corruption Retention и Worst-Case Retention. Результаты показывают, что более высокая точность на чистых данных не обязательно коррелирует с большей устойчивостью к визуальной деградации. Кроме того, анализ выявляет, что графики и таблицы существенно более хрупки по сравнению с входными данными, похожими на документы, при воздействии этих возмущений.

media Hugging Face Forums · 5 ч назад

Bro77XP выпустил простой для начинающих локальный AI-VTuber с клонированием голоса в zero-shot режиме

Bro77XP выпустил полностью локальный бесплатный проект AI-VTuber, предназначенный для начинающих и непрограммистов. Система использует Whisper для распознавания английской речи в реальном времени, Ollama с моделью llama3.2 для вывода LLM и Chatterbox TTS для преобразования текста в речь. Она поддерживает мгновенное клонирование голоса в zero-shot режиме и работает в цикле непрерывного прослушивания, автоматически обнаруживая тишину и записывая звук только при наличии речи. Программное обеспечение интегрируется с VTube Studio через его API для управления выражениями рта и запуска анимаций эмоций на основе сгенерированных ответов. Хотя изначально проект разрабатывался на GPU AMD, код в основном поддерживает пользователей CPU, позволяя работать без специфического оборудования NVIDIA или AMD. Для настройки требуется Python 3.10.11 и создание виртуального окружения для установки основных зависимостей, таких как openai-whisper, pyaudio и websocket-client.

arxiv arXiv cs.CL · 5 ч назад

Естественное забывание: асимметричный контроль того, какие правила переживают препетрен

Исследование выявило феномен «естественного забывания» (natural ungrokking), при котором небольшие языковые модели теряют изученные грамматические правила на полпути препетрена, несмотря на то, что доказательства их существования остаются в данных. Исследователи наблюдали, как модель, обучающаяся согласованию местоимений и рода с Sue, упала с точности 0,94 до уровня, близкого к нулю, к шагу 3500 без какого-либо соответствующего всплеска на кривой функции потерь. Выживание этих правил определяется частотой поддержки в обучающей выборке, тогда как отношение данных к параметрам лишь модулирует глубину падения. Эта динамика возникновения и последующего коллапса была воспроизведена на нескольких корпусах, бюджетах и начальных условиях (seeds) и подтверждена на публичных контрольных точках Pythia, где глубина коллапса коррелировала с масштабом модели. Процесс забывания действует как механизм вытеснения, при котором конкурирующий поверхностный паттерн побеждает правило, заставляя маржу логарифмической вероятности пересечь ноль в течение 100 шагов после поведенческого отказа. Контроль над этой судьбой асимметричен: хотя введение контрдоказательств может уничтожить правила посредством монотонной зависимости «доза-эффект», восстановление поддержки даже на уровне, в 450 раз превышающем поддерживающий уровень, не позволяет их восстановить.

arxiv arXiv cs.CL · 5 ч назад

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 5 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 5 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 5 ч назад

Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования

Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.

media r/LocalLLaMA · 5 ч назад

Заблокированное коммерческое предложение Dell на 6x RTX PRO 6000 Max-Q за $8,960

Пользователь Reddit опубликовал заблокированное коммерческое предложение Dell на шесть графических процессоров RTX PRO 6000 Blackwell Max-Q по цене $8,959.99 за единицу. Это предложение значительно ниже рекомендованной цены в $15,999, которая была указана всего за день до этого. Первоначальное коммерческое предложение на все шесть единиц истекает примерно через три часа с момента публикации. Автор также располагает отдельным действительным предложением на две единицы по той же сниженной цене до 3 июля. Он ищет идеи сообщества о том, как приобрести оборудование для локального кластера вывода GLM 5.2. Хотя у него есть средства для немедленной покупки всех шести единиц, он хочет найти креативные решения для использования истекающей оптовой скидки. Автор уточнил, что не ищет финансовых советов и не просит покупать сами графические процессоры.

media r/LocalLLaMA · 6 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 6 ч назад

Структурирование арабско-английского машиночитаемого словаря с использованием грамматик парсинга выражений

В данной статье представлен метод структурирования машиночитаемой версии арабско-английского словаря Аль-Маврид, решающий проблему отсутствия стандартизации в печатных форматах. Подход преобразует неструктурированные потоки слов и знаков препинания в явные иерархические структуры, определяющие компоненты записей, такие как подзаписи, метки областей применения и переводные эквиваленты. Парсинг выступает центральным этапом в каскадной архитектуре, реализованной с использованием формализма грамматик парсинга выражений (Parsing Expression Grammars). Этот метод позволяет автоматизировать или полуавтоматизировать организацию словарных записей несмотря на отсутствие стандартизации микроструктуры в арабских словарях. Исследование демонстрирует, что индукция микроструктуры обеспечивает правдоподобную точность при структурировании этих сложных лексикографических ресурсов. Преобразуя исходный текст в определенные форматы, работа поддерживает последующие приложения обработки естественного языка, требующие машиночитаемых лексических данных.