Все статьи — korshunov.ai

Все статьи Страница 1 / 130

Выпуск llama.cpp b9850: исправления для Qwen3 и новые бинарные файлы

Выпуск llama.cpp b9850 вносит обновления поддержки конкретных моделей, включая регистрацию тензора t_layer_inp для Qwen3Next, исправление назначения входных данных в цикле обработки слоев и устранение проблем DFLASH для qwen-coder-next. Также добавлен тензор для нормализации внимания в модели Qwen3.

lab OpenAI News · 1 д назад

Внутри GeneBench-Pro: 10 кейсов сложного геномного рассуждения

GeneBench-Pro — это бенчмарк, предназначенный для оценки моделей на задачах сложного геномного рассуждения, включающий десять подробных кейсов, демонстрирующих репрезентативные вопросы и вспомогательные материалы. Каждый кейс предоставляет исходный промпт, наборы данных и контекст, необходимые для оценки производительности модели при решении конкретных биологических задач.

lab OpenAI News · 1 д назад

Представляем GeneBench-Pro

GeneBench-Pro — это исследовательский бенчмарк, предназначенный для оценки того, как ИИ-агенты справляются с неоднозначностью и принимают важные решения в вычислительной биологии, расширяя возможности оригинального GeneBench. Он устраняет ограничения текущих оценок, проверяя более высокие способности, такие как обработка шумов данных, пересмотр предположений и определение момента готовности результатов для принятия решений.

lab OpenAI News · 1 д назад

Эпидемиология дампов ядра: исправление 18-летней ошибки

Инженеры OpenAI устранили необъяснимые сбои C++ в своей инфраструктуре данных Rockset, выявив две различные причины: скрытую аппаратную порчу на хосте Azure и состояние гонки (race condition) в GNU libunwind, существующее уже 18 лет.

lab OpenAI News · 1 д назад

Как расширяется внедрение ChatGPT

Данные OpenAI Signals показывают, что внедрение ChatGPT расширяется и углубляется в глобальном масштабе: пользователи отправляют на 50% больше сообщений ежедневно и удваивают количество уникальных задач, которые они пробуют через шесть месяцев после регистрации.

media r/LocalLLaMA · 1 д назад

Заметки о FastContext от Microsoft и небольшой эксперимент SWE-QA с подсказками для поиска

Автор анализирует статью Microsoft о FastContext и предлагает альтернативный подход с использованием офлайн-семантического поиска для снижения расхода токенов в агентах для программирования. Индексируя репозитории заранее и предоставляя подсказки по диапазонам файлов для Claude Code, метод позволил сократить общее количество токенов на 43,8%, сохранив эквивалентное качество решений в SWE-QA.

media r/LocalLLaMA · 1 д назад

Microsoft удалила модель FastContext с Hugging Face и GitHub

Модель Microsoft FastContext была удалена из официальных каналов распространения, при этом как репозиторий на Hugging Face, так и соответствующая страница на GitHub теперь пусты или удалены.

media r/LocalLLaMA · 1 д назад

InternScience выпускает Agents-A1 — 35B MoE-модель с невероятными результатами на бенчмарках

Компания InternScience выпустила модель Agents-A1 на платформе Hugging Face, которая использует архитектуру Mixture of Experts (MoE) с 35 миллиардами параметров. В релиз входит технический отчет, доступный на arXiv, и он выделяется исключительными результатами на бенчмарках.

media r/LocalLLaMA · 1 д назад

Пользователь Reddit ищет локальную LLM для автономных задач системного администрирования на Linux

Пользователь Reddit просит рекомендаций по локальной большой языковой модели, способной выполнять задачи системного администрирования, такие как чтение логов для выявления и устранения проблем, полностью офлайн.

media r/LocalLLaMA · 1 д назад

Локальные LLM на Tesla V100 16 ГБ: бенчмарки с одним и двумя модулями NVLink

В статье подробно описывается производительность модулей Tesla V100-SXM2-16GB для запуска локальных больших языковых моделей, подчеркивая их высокую пропускную способность HBM2 как ключевое преимущество для инференса, несмотря на отсутствие операций тензорного умножения bf16 или int8.

media r/LocalLLaMA · 1 д назад

Вопрос пользователя о использовании PrimeIntellect-3.1

Пользователь Reddit спрашивает, кто-нибудь сейчас использует модель PrimeIntellect-3.1 и делится своим опытом. В посте упоминается доступность модели на Hugging Face, но не приводятся технические детали или метрики производительности.

media r/LocalLLaMA · 1 д назад

Почему Дарио на подъёме: урок из пузыря доткомов

В статье утверждается, что крах доткомов был вызван отсутствием у компаний структурных рвов, а не провалом самого интернета, и применяет этот урок к стратегии Дарио Амодеи по построению монополии в области ИИ.

media r/LocalLLaMA · 1 д назад

Возмещение ущерба от RAMpocalypse

Пользователь Reddit просит помочь Bathaee Dunne LLP в антимонопольном иске против Samsung, SK Hynix и Micron.

github llama.cpp · 1 д назад

Выпуск llama.cpp b9849: обработка URL с IPv6 и новые бинарные файлы

Выпуск llama.cpp b9849 добавляет поддержку скобочных IPv6-адресов в авторизации URL, позволяя серверу парсить формы [хост]:порт согласно RFC 3986. Это обновление обеспечивает правильное форматирование журналов прослушивания, заголовков прокси и пересборки клиентов, сохраняя при этом bare remote_addr для отслеживания на уровне запроса.

lab Google DeepMind Blog · 1 д назад

Начните создавать приложения с Nano Banana 2 Lite и Gemini Omni Flash

Google выпустила две новые модели ИИ, Nano Banana 2 Lite и Gemini Omni Flash, предназначенные для расширения возможностей разработчиков при создании интеллектуальных приложений.

lab Hugging Face Blog · 1 д назад

Почему специализация неизбежна

В статье утверждается, что специализация в машинном обучении — это неизбежный тренд, обусловленный растущей сложностью моделей и необходимостью экспертизы в конкретных областях.

media r/LocalLLaMA · 1 д назад

Пользователь сравнивает Gemma 4 31B и Qwen 3.6 27B/35B для написания Python-скриптов

Пользователь Reddit делится опытом использования моделей Gemma 4 31B и Qwen 3.6 в OpenCode для написания Python-скриптов автоматизации рабочих процессов.

arxiv arXiv cs.CL · 1 д назад

REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.

arxiv arXiv cs.CL · 1 д назад

OLIVE: Предсказание латентных представлений с дополнением обзоров и реконструкцией волны для самоконтролируемого обучения речи

Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

arxiv arXiv cs.CL · 1 д назад

MaDI-Bench: комплексный бенчмарк для интеграции данных

Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.