Все статьи
lab OpenAI News · 1 д назад

Эпидемиология дампов ядра: исправление 18-летней ошибки

Инженеры OpenAI устранили необъяснимые сбои C++ в своей инфраструктуре данных Rockset, выявив две различные причины: скрытую аппаратную порчу на хосте Azure и состояние гонки (race condition) в GNU libunwind, существующее уже 18 лет.

lab OpenAI News · 1 д назад

Как расширяется внедрение ChatGPT

Данные OpenAI Signals показывают, что внедрение ChatGPT расширяется и углубляется в глобальном масштабе: пользователи отправляют на 50% больше сообщений ежедневно и удваивают количество уникальных задач, которые они пробуют через шесть месяцев после регистрации.

media r/LocalLLaMA · 1 д назад

Заметки о FastContext от Microsoft и небольшой эксперимент SWE-QA с подсказками для поиска

Автор анализирует статью Microsoft о FastContext и предлагает альтернативный подход с использованием офлайн-семантического поиска для снижения расхода токенов в агентах для программирования. Индексируя репозитории заранее и предоставляя подсказки по диапазонам файлов для Claude Code, метод позволил сократить общее количество токенов на 43,8%, сохранив эквивалентное качество решений в SWE-QA.

media r/LocalLLaMA · 1 д назад

InternScience выпускает Agents-A1 — 35B MoE-модель с невероятными результатами на бенчмарках

Компания InternScience выпустила модель Agents-A1 на платформе Hugging Face, которая использует архитектуру Mixture of Experts (MoE) с 35 миллиардами параметров. В релиз входит технический отчет, доступный на arXiv, и он выделяется исключительными результатами на бенчмарках.

media r/LocalLLaMA · 1 д назад

Пользователь Reddit ищет локальную LLM для автономных задач системного администрирования на Linux

Пользователь Reddit просит рекомендаций по локальной большой языковой модели, способной выполнять задачи системного администрирования, такие как чтение логов для выявления и устранения проблем, полностью офлайн.

media r/LocalLLaMA · 1 д назад

Локальные LLM на Tesla V100 16 ГБ: бенчмарки с одним и двумя модулями NVLink

В статье подробно описывается производительность модулей Tesla V100-SXM2-16GB для запуска локальных больших языковых моделей, подчеркивая их высокую пропускную способность HBM2 как ключевое преимущество для инференса, несмотря на отсутствие операций тензорного умножения bf16 или int8.

media r/LocalLLaMA · 1 д назад

Вопрос пользователя о использовании PrimeIntellect-3.1

Пользователь Reddit спрашивает, кто-нибудь сейчас использует модель PrimeIntellect-3.1 и делится своим опытом. В посте упоминается доступность модели на Hugging Face, но не приводятся технические детали или метрики производительности.

media r/LocalLLaMA · 1 д назад

Почему Дарио на подъёме: урок из пузыря доткомов

В статье утверждается, что крах доткомов был вызван отсутствием у компаний структурных рвов, а не провалом самого интернета, и применяет этот урок к стратегии Дарио Амодеи по построению монополии в области ИИ.

github llama.cpp · 1 д назад

Выпуск llama.cpp b9849: обработка URL с IPv6 и новые бинарные файлы

Выпуск llama.cpp b9849 добавляет поддержку скобочных IPv6-адресов в авторизации URL, позволяя серверу парсить формы [хост]:порт согласно RFC 3986. Это обновление обеспечивает правильное форматирование журналов прослушивания, заголовков прокси и пересборки клиентов, сохраняя при этом bare remote_addr для отслеживания на уровне запроса.

arxiv arXiv cs.CL · 1 д назад

REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.

arxiv arXiv cs.CL · 1 д назад

OLIVE: Предсказание латентных представлений с дополнением обзоров и реконструкцией волны для самоконтролируемого обучения речи

Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

arxiv arXiv cs.CL · 1 д назад

MaDI-Bench: комплексный бенчмарк для интеграции данных

Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.

arxiv arXiv cs.CL · 1 д назад

Выявление динамики, обусловленной актуальностью, в потребительской уверенности с помощью генеративного социального моделирования

В данной статье представлен ConsumerSim — генеративная платформа, реконструирующая динамику Индекса потребительской уверенности (CCI) с использованием синтетической популяции, калиброванной на микроданных, и различных экономических сигналов. Модель занимает первое место среди базовых вариантов по точности реконструкции для рядов CCI США, ЕС27 и Японии, особенно в периоды высокоактуальных шоков.

arxiv arXiv cs.CL · 1 д назад

MOPD: Многоучительская дистилляция на основе он-политики для интеграции возможностей в постобучении больших языковых моделей

Авторы предлагают многоучительскую дистилляцию на основе он-политики (MOPD), парадигму постобучения, предназначенную для интеграции возможностей нескольких специализированных учителей усиленного обучения с подкреплением в одну модель-студент. Этот подход устраняет смещение воздействия и обеспечивает плотный сигнал оптимизации за счёт дистилляции учителей в студента во время его собственных рулоутов.

arxiv arXiv cs.CL · 1 д назад

RAPS-DA: Режимно-ориентированная специализация партнёров для надёжного RAG

Авторы предлагают RAPS-DA, режимно-ориентированную фреймворк специализации партнёров, предназначенный для устранения хрупкости Retrieval-augmented generation (RAG) при конфликте извлечённого контекста с параметрическими знаниями модели. Этот подход разделяет несовместимые обучающие сигналы в различных режимах надёжности путём обучения специализированных партнёров и применения целевого надзора.