Все статьи
media r/LocalLLaMA · 21 ч назад

Заметки о FastContext от Microsoft и небольшой эксперимент SWE-QA с подсказками для поиска

Автор анализирует статью Microsoft о FastContext и предлагает альтернативный подход с использованием офлайн-семантического поиска для снижения расхода токенов в агентах для программирования. Индексируя репозитории заранее и предоставляя подсказки по диапазонам файлов для Claude Code, метод позволил сократить общее количество токенов на 43,8%, сохранив эквивалентное качество решений в SWE-QA.

media r/LocalLLaMA · 21 ч назад

InternScience выпускает Agents-A1 — 35B MoE-модель с невероятными результатами на бенчмарках

Компания InternScience выпустила модель Agents-A1 на платформе Hugging Face, которая использует архитектуру Mixture of Experts (MoE) с 35 миллиардами параметров. В релиз входит технический отчет, доступный на arXiv, и он выделяется исключительными результатами на бенчмарках.

media r/LocalLLaMA · 21 ч назад

Пользователь Reddit ищет локальную LLM для автономных задач системного администрирования на Linux

Пользователь Reddit просит рекомендаций по локальной большой языковой модели, способной выполнять задачи системного администрирования, такие как чтение логов для выявления и устранения проблем, полностью офлайн.

media r/LocalLLaMA · 21 ч назад

Локальные LLM на Tesla V100 16 ГБ: бенчмарки с одним и двумя модулями NVLink

В статье подробно описывается производительность модулей Tesla V100-SXM2-16GB для запуска локальных больших языковых моделей, подчеркивая их высокую пропускную способность HBM2 как ключевое преимущество для инференса, несмотря на отсутствие операций тензорного умножения bf16 или int8.

media r/LocalLLaMA · 21 ч назад

Вопрос пользователя о использовании PrimeIntellect-3.1

Пользователь Reddit спрашивает, кто-нибудь сейчас использует модель PrimeIntellect-3.1 и делится своим опытом. В посте упоминается доступность модели на Hugging Face, но не приводятся технические детали или метрики производительности.

media r/LocalLLaMA · 21 ч назад

Почему Дарио на подъёме: урок из пузыря доткомов

В статье утверждается, что крах доткомов был вызван отсутствием у компаний структурных рвов, а не провалом самого интернета, и применяет этот урок к стратегии Дарио Амодеи по построению монополии в области ИИ.

arxiv arXiv cs.CL · 22 ч назад

REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.

arxiv arXiv cs.CL · 22 ч назад

OLIVE: Предсказание латентных представлений с дополнением обзоров и реконструкцией волны для самоконтролируемого обучения речи

Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

arxiv arXiv cs.CL · 22 ч назад

MaDI-Bench: комплексный бенчмарк для интеграции данных

Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.

arxiv arXiv cs.CL · 22 ч назад

Выявление динамики, обусловленной актуальностью, в потребительской уверенности с помощью генеративного социального моделирования

В данной статье представлен ConsumerSim — генеративная платформа, реконструирующая динамику Индекса потребительской уверенности (CCI) с использованием синтетической популяции, калиброванной на микроданных, и различных экономических сигналов. Модель занимает первое место среди базовых вариантов по точности реконструкции для рядов CCI США, ЕС27 и Японии, особенно в периоды высокоактуальных шоков.

arxiv arXiv cs.CL · 22 ч назад

MOPD: Многоучительская дистилляция на основе он-политики для интеграции возможностей в постобучении больших языковых моделей

Авторы предлагают многоучительскую дистилляцию на основе он-политики (MOPD), парадигму постобучения, предназначенную для интеграции возможностей нескольких специализированных учителей усиленного обучения с подкреплением в одну модель-студент. Этот подход устраняет смещение воздействия и обеспечивает плотный сигнал оптимизации за счёт дистилляции учителей в студента во время его собственных рулоутов.

arxiv arXiv cs.CL · 22 ч назад

RAPS-DA: Режимно-ориентированная специализация партнёров для надёжного RAG

Авторы предлагают RAPS-DA, режимно-ориентированную фреймворк специализации партнёров, предназначенный для устранения хрупкости Retrieval-augmented generation (RAG) при конфликте извлечённого контекста с параметрическими знаниями модели. Этот подход разделяет несовместимые обучающие сигналы в различных режимах надёжности путём обучения специализированных партнёров и применения целевого надзора.

arxiv arXiv cs.CL · 23 ч назад

Дообучение модели встраивания, инвариантной к перестановкам, для извлечения структурированных метаданных

В статье показано, что порядок полей существенно влияет на качество извлечения в системах структурированных метаданных, поскольку стандартное дообучение заставляет кодировщики опираться на абсолютную позицию, а не на метки полей. Для решения этой проблемы авторы предлагают метод PI-FT (Permutation-Invariant Fine-Tuning), который сериализует записи с использованием случайно выбранных порядков полей и dropout для привязки смысла к меткам.

arxiv arXiv cs.CL · 23 ч назад

Восприятие ситуации: необходимая примитивная способность для искусственного сверхинтеллекта

В статье утверждается, что современные большие языковые модели не обладают критической способностью, называемой «восприятием ситуации», которая необходима для достижения искусственного сверхинтеллекта. Эта отсутствующая способность включает построение и действие внутри внутренних симуляций возможных миров в латентном времени.

arxiv arXiv cs.CL · 23 ч назад

SIMAX: Масштабируемая и интерпретируемая платформа для симуляции диалогов между врачами и пациентами с аннотациями и данными разной точности

Исследователи разработали SIMAX — платформу, предназначенную для генерации контролируемых клинических диалоговых данных с референсными поведенческими аннотациями в целях решения проблемы нехватки масштабируемых оценочных данных для систем кодирования коммуникации на базе ИИ. Система создает симулированные взаимодействия врача и пациента на основе заранее определенных сценариев, персонажей и условий голоса, используя специфические кодовые книги для контроля общего качества коммуникации и подсчитываемых поведенческих паттернов.

arxiv arXiv cs.CL · 23 ч назад

TRACE: Обнаружение конгруэнтности в диалоге с учётом временных отношений в парной речи

Исследователи представляют датасет DyadEE для обнаружения эмоциональной конгруэнтности в парной речи и предлагают TRACE, оконный фреймворк, который моделирует эти взаимодействия как упорядоченные последовательности акустических эмбеддингов. Исследование показывает, что включение контекста разговора и информации о отношениях значительно повышает точность обнаружения.

arxiv arXiv cs.CL · 23 ч назад

Poller: Подходят ли LLM для задачи оценки понимания поэзии?

В данной статье представлен Poller (Poetry LLM Evaluator), новый метод, использующий большие языковые модели для оценки понимания поэзии путем имитации человеческого суждения через ролевую игру. Метод требует от LLM принятия перспективы автора стихотворения, используя подробную информацию для преодоления разрыва между автоматизированной эффективностью и человеческой экспертизой.