Обновление бенчмарка US Ban: GPT-5.6 сравнялся с Anthropic
Последняя модель OpenAI сравнялась с Anthropic в бенчмарке US Ban после превью GPT-5.6.
Последняя модель OpenAI сравнялась с Anthropic в бенчмарке US Ban после превью GPT-5.6.
Проект Koboldcpp выпустил версию 1.116, как было объявлено в сабреддите LocalLLaMA и в официальном репозитории GitHub.
Открытая оценка, включавшая 55 моделей от 11 семейств разработчиков, показала, что большие языковые модели демонстрируют статистически значимое смещение в пользу своих же моделей при слепой оценке друг друга. Среди 22 254 действительных суждений каждое семейство, имевшее достаточный объем данных, проявляло тенденцию оценивать своих представителей иначе, чем модели других семейств.
Пользователь на Reddit интересуется, является ли покупка двух видеокарт AMD Radeon RX 9060 XT с 16 ГБ VRAM каждая целесообразной инвестицией для запуска модели Qwen 3.6 27B и аналогичных архитектур.
Автор демонстрирует, что локальные модели, в частности Qwen 3.6 27B, способны выполнять сквозное удаление конфиденциальных данных из документов при оптимизации с использованием более высокого уровня квантования и агентного интерфейса на основе фреймворка PI.
Автор разработал `claude_converter`, инструмент, который преобразует локальные `.jsonl` файлы сессий Claude Code в форматы, совместимые с фреймворками для тонкой настройки, такими как TRL, Axolotl и LLaMA-Factory.
Пользователь Reddit утверждает, что американские технологические компании стремятся к полному глобальному контролю над ИИ и рассматривают выпуск продвинутых моделей как угрозу своему доминированию.
Создан новый репозиторий и сайт под названием Model Registry для публикации и распространения .torrent файлов популярных открытых моделей, используя Hugging Face в качестве резервного веб-сидa. Проект включает скрипты для автоматизации процесса и бэкенд-сервис, который перенаправляет BitTorrent-клиенты на правильный эндпоинт Hugging Face.
Пользователь описывает высокопроизводительную конфигурацию для локального вывода, использующую четыре модифицированных GPU NVIDIA RTX 4090 с 192 ГБ VRAM, в паре с материнской платой WRX90E-SAGE SE и блоком питания на 3000 Вт.
Пользователь Reddit предлагает, чтобы технологии ИИ-масштабирования, такие как DLSS и FSR, могли использовать легкие специфичные для игры адаптерные слои для улучшения производительности на маломощном оборудовании.
Пользователь Reddit ищет рекомендации по самой большой модели с возможностями рассуждений, которая помещается в лимит 64 ГБ VRAM для целей дистилляции знаний.
Анализ спекулятивного декодирования с использованием моделей Gemma 4-31B-it показывает, что сильное квантование снижает частоту принятия токенов, поскольку основная модель становится менее согласованной с генератором черновиков. Тестирование квантований Q5_K_S, IQ4_XS, IQ3_M и IQ2_M выявляет, как глубина черновика влияет на производительность.
Пользователь Reddit демонстрирует, как собрать локальную систему для вывода ИИ менее чем за $2500, используя доступные б/у компоненты, с акцентом на возможность запуска больших языковых моделей, таких как GLM-5.2, без дорогого корпоративного оборудования.
Пользователь Reddit делится опытом использования Claude Code для создания 3D-игры с моделью Ornith 35B. После трех промптов модель успешно выдала запрошенный результат, тогда как модель Qwen3.5-35b-a3b не смогла этого сделать даже после нескольких попыток.
Пользователь Reddit отмечает, что интерес к дообучению моделей на оборудовании потребительского класса, похоже, снизился после выпуска способных универсальных моделей, таких как Llama-3-8b. Автор предполагает, что повышение интеллекта базовой модели снижает необходимость в дообучении, поскольку часто достаточно промпт-инжиниринга.
Google организует хакатоны, ориентированные на малые языковые модели, в частности Gemma 4 31B, чтобы продемонстрировать их ценность в инженерии программного обеспечения с помощью ИИ. Эта инициатива подчеркивает убежденность компании в полезности малых моделей, несмотря на отраслевой тренд в сторону более крупных.
Предоставленный текст — это пост в Reddit, обсуждающий модель OpenAI GPT-5.6 и ограничения её развертывания после запроса правительства.
Пользователь Reddit из сообщества r/LocalLLaMA поделился изображением с подписью «Счастливая жена — счастливая жизнь, как говорят они». Пост представляет собой личную историю о покупке Диет Пепси для жены пользователя.
ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.
Этот пост на Reddit содержит интервью Ars Technica с Кори Доктороу о его взглядах на искусственный интеллект. Автор поста подчеркивает критический тон статьи в отношении крупных технологических компаний, пытающихся выйти на IPO.