Лаборатория · DeepSeek
arxiv arXiv cs.CL · 8 д назад

Оценка агентов показывает, что модели ИИ не могут избегать эксплуатации животных

TAC, первый агентный бенчмарк для скрытой защиты животных, проверяет способность агентов ИИ избегать эксплуатации животных в сценариях бронирования путешествий. Все семь передовых моделей получают оценку ниже 64%, лучшая из них — 53%, и даже незначительные улучшения запроса дают лишь незначительные результаты. Проверка не выявила признаков осознания оценки, что указывает на разрыв в производительности, обусловленный отсутствием истинного мышления по вопросам благополучия животных, а не распознаванием запросов.

arxiv arXiv cs.AI · 8 д назад

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

TAC оценивает, насколько ИИ-агенты избегают эксплуатации животных при бронировании поездок. Семь передовых моделей все показывают результат ниже уровня в 64%, при этом Claude Opus 4.7 достигает 53%. Добавление системы запроса с учетом благополучия животных значительно улучшает результаты, хотя модели не демонстрируют никаких признаков осознания оценки в своих ответах.

arxiv arXiv cs.CL · 8 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 8 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media Interconnects · 9 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.