xAI — korshunov.ai — новости ML

Лаборатория · xAI

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.AI · 1 д назад

Оценка LLM для обнаружения уязвимостей в веб-приложениях

Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.

media Latent Space · 6 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

arxiv arXiv cs.AI · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

media r/LocalLLaMA · 4 д назад

Клод скоро потребует подтверждения личности

Anthropic скоро потребует от пользователей подтверждения личности для доступа к Клод. Изменение направлено на повышение безопасности и обеспечение ответственного использования платформы.