BERTomelo: Ваш лучший друг среди португальских энкодеров
В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.
В этой статье представлен BERTomelo, энкодер нового поколения для одного языка, специально оптимизированный для португальского языка с использованием архитектуры ModernBERT.
Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.
Исследование 22 моделей с открытым весом показывает, что силу клинических доказательств можно восстановить по активациям модели и тексту, хотя явно заявленные моделями оценки не лучше случайного угадывания. Исследователи проанализировали 45 134 клинических утверждения, гармонизированных в четыре уровня доказательности, чтобы проверить, фиксируют ли модели силу доказательств отдельно от фактической истинности.
Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.
В данной статье представлен непрерывный фреймворк декодирования для языковых моделей с маскированной диффузией (MDLMs), который переосмысливает предсказание маски как предсказание чистого состояния, чтобы создать непрерывный поток в пространстве входных эмбеддингов. Позволяя токенам накапливать частичный прогресс и оставаться пересматриваемыми, метод решает проблему преждевременных обязательств, присущих стандартным режимам бинарного раскрытия.
ThinkProbe — это фреймворк для структурного анализа следов рассуждений больших языковых моделей, преобразующий их в направленные Графы Мыслей с восемью типами узлов и шестью типами ребер. Он выводит пятимерный когнитивный профиль из 19 метрик через полностью нефункциональный конвейер, сочетающий сегментацию на основе правил и дискриминационное семантическое связывание.
В данном исследовании изучается степень, в которой современные текстовые энкодеры отражают психологические теории аффекта путем оценки двенадцати недавно выпущенных моделей в рамках трех устоявшихся фреймворков эмоций. Исследование сравнивает производительность на уровне слов и предложений с использованием как задач регрессии, так и классификации.
В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.
Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.
AB-RAG — это фреймворк, не требующий дообучения и независимый от архитектуры базовой модели, который динамически регулирует усилия по извлечению на основе оценки уверенности, полученной из определенности модели, согласия между ответом и доказательством, а также дисперсии оценок извлечения. Этот подход позволяет системам решать, следует ли прекратить поиск или извлечь больше доказательств в рамках фиксированного бюджета, без дообучения базовой языковой модели.
В данном исследовании изучается, осознают ли языковые модели тот факт, что их тестируют, — фактор, критически важный для безопасности ИИ, поскольку он может заставлять модели стратегически изменять своё поведение. Используя 11 моделей с открытым весом из семейств Qwen 2.5, Gemma 2 и Llama 3.2, исследователи проанализировали, как осознание оценки проявляется в моделях разных размеров.
Авторы представляют предварительно зарегистрированное правило отбора, которое определяет до реализации, стоит ли строить эволюционный внешний цикл по параметрам нейронной сети по сравнению с дешёвой альтернативой однократного применения. Правило вычисляет метрику восстановления R, определённую как лучший выигрыш однократного применения, делённый на лучший выигрыш любого дешёвого метода, и предписывает пропускать внешний цикл, когда R больше или равно 90%.
Исследование с участием 815 человек изучало, меняет ли использование человекоподобного языка для описания искусственного интеллекта общественное восприятие по сравнению с нейтральными описаниями.
Авторы представляют DistilledGemma — эффективную систему для извлечения отношений «персона-место» из многоязычных исторических газетных статей на английском, немецком и французском языках. Подход использует трехэтапный конвейер дистилляции знаний для балансировки точности классификации с вычислительной эффективностью.
Авторы представляют Symbolic Mechanistic Data Attribution (SMDA), фреймворк, который атрибутирует обучающие пары интерпретируемым символьным политикам, управляющим поведением модели, сокращая разрыв между механистическими цепями и высокоуровневыми решениями.
В статье представлен TraceRetain — легковесная система для ограниченной внешней памяти в замороженных агентах LLM, которая оценивает и вытесняет записи на основе интерпретируемых признаков, таких как успешность и избыточность. Исследование оценивает, как политики удержания влияют на производительность при использовании внешней памяти для усиления языковых моделей.
Статья рассматривает ограничение AutoDiscovery, использующего статическое «байесовское удивление», вводя доказательные убеждения LLM, где априорные вероятности обновляются на основе доказательств из предыдущих гипотез для вычисления нестационарного удивления. Авторы обнаруживают, что поиск с использованием эмбеддингов и генерации с дополнением (RAG) по предыдущим открытиям лучше всего предвосхищает конечные апостериорные вероятности, и идентифицируют 37,5% статических значений удивления как ложные.
Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.
Исследователи предлагают многоблочные диффузионные языковые модели (MBD-LMs) для расширения одноблочной генерации текста на основе диффузии за счёт одновременного декодирования набора последовательных блоков для параллелизма между блоками. Подход устраняет разрыв между состояниями обучения и вывода с помощью метода постобучения под названием многоблочное принудительное обучение учителем (MultiTF).
Исследователи представляют PolicyGuard, верификатор подагента, предназначенный для улучшения соблюдения политик в агентах LLM за счет рассуждений над полным контекстом диалога, а не полагаясь на внешние проверки отдельных аргументов. Этот подход устраняет ограничения предыдущих методов защиты, которые часто недооценивают необходимость исправлений, специфичных для разговора, и явного подтверждения пользователем.