Все статьи
lab Anthropic News · только что Live

Claude Science, рабочая среда для ученых на базе ИИ, теперь доступна

Anthropic запустила Claude Science в бета-версии — рабочую среду на базе ИИ, предназначенную для интеграции разрозненных научных инструментов в единое исследовательское пространство. Платформа стремится ускорить открытия за счет предоставления проверяемых артефактов, гибкого масштабирования вычислений и специализированных агентов для таких областей, как геномика и структурная биология.

lab Anthropic News · 2 ч назад

Представляем Claude Sonnet 5

Anthropic выпустила Claude Sonnet 5, новую агентную ИИ-модель, предназначенную для выполнения сложных задач планирования, использования инструментов и автономного программирования по более низкой стоимости, чем предыдущие модели класса Opus. Обновление сокращает разрыв в производительности с Opus 4.8, одновременно предлагая значительные улучшения в рассуждениях, безопасности и исполнении по сравнению с предшественником Sonnet 4.6.

lab OpenAI News · 2 ч назад

Внутри GeneBench-Pro: 10 кейсов сложного геномного рассуждения

GeneBench-Pro — это бенчмарк, предназначенный для оценки моделей на задачах сложного геномного рассуждения, включающий десять подробных кейсов, демонстрирующих репрезентативные вопросы и вспомогательные материалы. Каждый кейс предоставляет исходный промпт, наборы данных и контекст, необходимые для оценки производительности модели при решении конкретных биологических задач.

lab OpenAI News · 2 ч назад

Представляем GeneBench-Pro

GeneBench-Pro — это исследовательский бенчмарк, предназначенный для оценки того, как ИИ-агенты справляются с неоднозначностью и принимают важные решения в вычислительной биологии, расширяя возможности оригинального GeneBench. Он устраняет ограничения текущих оценок, проверяя более высокие способности, такие как обработка шумов данных, пересмотр предположений и определение момента готовности результатов для принятия решений.

lab OpenAI News · 2 ч назад

Эпидемиология дампов ядра: исправление 18-летней ошибки

Инженеры OpenAI устранили необъяснимые сбои C++ в своей инфраструктуре данных Rockset, выявив две различные причины: скрытую аппаратную порчу на хосте Azure и состояние гонки (race condition) в GNU libunwind, существующее уже 18 лет.

lab OpenAI News · 3 ч назад

Как расширяется внедрение ChatGPT

Данные OpenAI Signals показывают, что внедрение ChatGPT расширяется и углубляется в глобальном масштабе: пользователи отправляют на 50% больше сообщений ежедневно и удваивают количество уникальных задач, которые они пробуют через шесть месяцев после регистрации.

media r/LocalLLaMA · 3 ч назад

Заметки о FastContext от Microsoft и небольшой эксперимент SWE-QA с подсказками для поиска

Автор анализирует статью Microsoft о FastContext и предлагает альтернативный подход с использованием офлайн-семантического поиска для снижения расхода токенов в агентах для программирования. Индексируя репозитории заранее и предоставляя подсказки по диапазонам файлов для Claude Code, метод позволил сократить общее количество токенов на 43,8%, сохранив эквивалентное качество решений в SWE-QA.

media r/LocalLLaMA · 3 ч назад

InternScience выпускает Agents-A1 — 35B MoE-модель с невероятными результатами на бенчмарках

Компания InternScience выпустила модель Agents-A1 на платформе Hugging Face, которая использует архитектуру Mixture of Experts (MoE) с 35 миллиардами параметров. В релиз входит технический отчет, доступный на arXiv, и он выделяется исключительными результатами на бенчмарках.

media r/LocalLLaMA · 3 ч назад

Пользователь Reddit ищет локальную LLM для автономных задач системного администрирования на Linux

Пользователь Reddit просит рекомендаций по локальной большой языковой модели, способной выполнять задачи системного администрирования, такие как чтение логов для выявления и устранения проблем, полностью офлайн.

media r/LocalLLaMA · 3 ч назад

Локальные LLM на Tesla V100 16 ГБ: бенчмарки с одним и двумя модулями NVLink

В статье подробно описывается производительность модулей Tesla V100-SXM2-16GB для запуска локальных больших языковых моделей, подчеркивая их высокую пропускную способность HBM2 как ключевое преимущество для инференса, несмотря на отсутствие операций тензорного умножения bf16 или int8.

media r/LocalLLaMA · 3 ч назад

Вопрос пользователя о использовании PrimeIntellect-3.1

Пользователь Reddit спрашивает, кто-нибудь сейчас использует модель PrimeIntellect-3.1 и делится своим опытом. В посте упоминается доступность модели на Hugging Face, но не приводятся технические детали или метрики производительности.

media r/LocalLLaMA · 3 ч назад

Почему Дарио на подъёме: урок из пузыря доткомов

В статье утверждается, что крах доткомов был вызван отсутствием у компаний структурных рвов, а не провалом самого интернета, и применяет этот урок к стратегии Дарио Амодеи по построению монополии в области ИИ.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9849: обработка URL с IPv6 и новые бинарные файлы

Выпуск llama.cpp b9849 добавляет поддержку скобочных IPv6-адресов в авторизации URL, позволяя серверу парсить формы [хост]:порт согласно RFC 3986. Это обновление обеспечивает правильное форматирование журналов прослушивания, заголовков прокси и пересборки клиентов, сохраняя при этом bare remote_addr для отслеживания на уровне запроса.

arxiv arXiv cs.CL · 4 ч назад

REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.