Все статьи
arxiv arXiv cs.CL · 7 ч назад

Могут ли LLM нанимать справедливо? Расовая предвзятость при отборе резюме

Аудит четырнадцати основных больших языковых моделей выявляет значительный сдвиг в расовой предвзятости алгоритмов отбора резюме за последние годы. В то время как модели 2023 года воспроизводят разрыв в количестве приглашений на собеседование, благоприятствующий белым кандидатам, все модели, выпущенные в 2024 году и позже, показывают либо нулевой разрыв, либо значительное обращение этого эффекта в пользу чернокожих кандидатов.

arxiv arXiv cs.CL · 7 ч назад

AgriTune-R: Воспроизводимая платформа для тонкой настройки LLM в сельском хозяйстве

В статье представлена AgriTune-R — воспроизводимая и проверяемая платформа, предназначенная для адаптации моделей общего назначения к конкретным сельскохозяйственным задачам. Этот подход учитывает отраслевую специфику и критическую важность безопасности в сельском хозяйстве за счет интеграции управления данными, экспертной оценки и ограничений на основе доказательств для предотвращения ненадежных рекомендаций.

arxiv arXiv cs.CL · 7 ч назад

Конверсационная адаптация домена IndicTrans2 с помощью реплея опыта и "супа" моделей

Авторы адаптируют систему перевода IndicTrans2-1B с открытым исходным кодом для обработки разговорного регистра на 21 индийском языке, используя только публичные датасеты. Комбинируя реплей опыта (experience replay) с "супом" моделей (model souping), они достигают значительных улучшений в автоматических метриках без ухудшения производительности на задачах общего домена.

arxiv arXiv cs.CL · 7 ч назад

Сила клинических доказательств восстанавливается по представлениям LLM, а не по заявленным оценкам

Исследование 22 моделей с открытым весом показывает, что силу клинических доказательств можно восстановить по активациям модели и тексту, хотя явно заявленные моделями оценки не лучше случайного угадывания. Исследователи проанализировали 45 134 клинических утверждения, гармонизированных в четыре уровня доказательности, чтобы проверить, фиксируют ли модели силу доказательств отдельно от фактической истинности.

arxiv arXiv cs.CL · 8 ч назад

Как использовать синтетическую речь для систем ASR на основе LLM?

Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.

arxiv arXiv cs.CL · 8 ч назад

Маскированное декодирование диффузии как поток предсказания x

В данной статье представлен непрерывный фреймворк декодирования для языковых моделей с маскированной диффузией (MDLMs), который переосмысливает предсказание маски как предсказание чистого состояния, чтобы создать непрерывный поток в пространстве входных эмбеддингов. Позволяя токенам накапливать частичный прогресс и оставаться пересматриваемыми, метод решает проблему преждевременных обязательств, присущих стандартным режимам бинарного раскрытия.

arxiv arXiv cs.CL · 8 ч назад

ThinkProbe: Структурное профилирование рассуждений LLM с помощью нефункциональных графов мыслей

ThinkProbe — это фреймворк для структурного анализа следов рассуждений больших языковых моделей, преобразующий их в направленные Графы Мыслей с восемью типами узлов и шестью типами ребер. Он выводит пятимерный когнитивный профиль из 19 метрик через полностью нефункциональный конвейер, сочетающий сегментацию на основе правил и дискриминационное семантическое связывание.

arxiv arXiv cs.CL · 8 ч назад

Сравнительное исследование аффективных признаков в текстовых эмбеддингах в рамках психологических теорий эмоций

В данном исследовании изучается степень, в которой современные текстовые энкодеры отражают психологические теории аффекта путем оценки двенадцати недавно выпущенных моделей в рамках трех устоявшихся фреймворков эмоций. Исследование сравнивает производительность на уровне слов и предложений с использованием как задач регрессии, так и классификации.

arxiv arXiv cs.CL · 8 ч назад

Дешевые концептуально-ориентированные локализованные объяснения: насколько далеко мы можем зайти с подходами без обучения?

В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.

arxiv arXiv cs.CL · 8 ч назад

Эволюционное тонкое настраивание: обучение открытию решений в 371 задаче оптимизации

Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.

arxiv arXiv cs.CL · 8 ч назад

AB-RAG: Адаптивное извлечение с ограниченным бюджетом для надежного ответа на вопросы

AB-RAG — это фреймворк, не требующий дообучения и независимый от архитектуры базовой модели, который динамически регулирует усилия по извлечению на основе оценки уверенности, полученной из определенности модели, согласия между ответом и доказательством, а также дисперсии оценок извлечения. Этот подход позволяет системам решать, следует ли прекратить поиск или извлечь больше доказательств в рамках фиксированного бюджета, без дообучения базовой языковой модели.

arxiv arXiv cs.CL · 8 ч назад

Глубина репрезентации осознания оценки меняется с масштабом в языковых моделях с открытым весом

В данном исследовании изучается, осознают ли языковые модели тот факт, что их тестируют, — фактор, критически важный для безопасности ИИ, поскольку он может заставлять модели стратегически изменять своё поведение. Используя 11 моделей с открытым весом из семейств Qwen 2.5, Gemma 2 и Llama 3.2, исследователи проанализировали, как осознание оценки проявляется в моделях разных размеров.

arxiv arXiv cs.CL · 9 ч назад

Предварительно зарегистрированное правило отбора для эволюционных внешних циклов

Авторы представляют предварительно зарегистрированное правило отбора, которое определяет до реализации, стоит ли строить эволюционный внешний цикл по параметрам нейронной сети по сравнению с дешёвой альтернативой однократного применения. Правило вычисляет метрику восстановления R, определённую как лучший выигрыш однократного применения, делённый на лучший выигрыш любого дешёвого метода, и предписывает пропускать внешний цикл, когда R больше или равно 90%.

arxiv arXiv cs.CL · 9 ч назад

Как антропоморфный язык влияет на общественное восприятие ИИ

Исследование с участием 815 человек изучало, меняет ли использование человекоподобного языка для описания искусственного интеллекта общественное восприятие по сравнению с нейтральными описаниями.

arxiv arXiv cs.CL · 9 ч назад

DistilledGemma: Сбалансированная эффективность и точность для извлечения отношений «персона-место»

Авторы представляют DistilledGemma — эффективную систему для извлечения отношений «персона-место» из многоязычных исторических газетных статей на английском, немецком и французском языках. Подход использует трехэтапный конвейер дистилляции знаний для балансировки точности классификации с вычислительной эффективностью.

arxiv arXiv cs.CL · 9 ч назад

Символьная механистическая атрибуция данных: отслеживание влияния обучения на выученные поведенческие политики

Авторы представляют Symbolic Mechanistic Data Attribution (SMDA), фреймворк, который атрибутирует обучающие пары интерпретируемым символьным политикам, управляющим поведением модели, сокращая разрыв между механистическими цепями и высокоуровневыми решениями.

arxiv arXiv cs.CL · 9 ч назад

Селективное удержание памяти для агентов LLM с длинным горизонтом

В статье представлен TraceRetain — легковесная система для ограниченной внешней памяти в замороженных агентах LLM, которая оценивает и вытесняет записи на основе интерпретируемых признаков, таких как успешность и избыточность. Исследование оценивает, как политики удержания влияют на производительность при использовании внешней памяти для усиления языковых моделей.

arxiv arXiv cs.CL · 9 ч назад

Доказательные убеждения LLM для непрерывного научного открытия

Статья рассматривает ограничение AutoDiscovery, использующего статическое «байесовское удивление», вводя доказательные убеждения LLM, где априорные вероятности обновляются на основе доказательств из предыдущих гипотез для вычисления нестационарного удивления. Авторы обнаруживают, что поиск с использованием эмбеддингов и генерации с дополнением (RAG) по предыдущим открытиям лучше всего предвосхищает конечные апостериорные вероятности, и идентифицируют 37,5% статических значений удивления как ложные.

arxiv arXiv cs.CL · 9 ч назад

OCR-VLMs читают Деванагари? Бэнчмарк и исследование пост-коррекции

Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.