GeneBench-Pro — это исследовательский бенчмарк, предназначенный для оценки того, как ИИ-агенты справляются с неоднозначностью и принимают важные решения в вычислительной биологии, расширяя возможности оригинального GeneBench. Он устраняет ограничения текущих оценок, проверяя более высокие способности, такие как обработка шумов данных, пересмотр предположений и определение момента готовности результатов для принятия решений.

  • Бенчмарк состоит из 129 синтетически сгенерированных вопросов, охватывающих геномику, количественную биологию и трансляционную медицину, что обеспечивает детерминированную оценку на основе известных причинно-следственных структур.
  • Каждая задача предоставляет реалистичный набор данных с техническими проблемами, требуя от агентов исследования данных, выбора аналитических подходов и проведения итеративных экспериментов.
  • Внешние эксперты в предметной области проверили задачи на реалистичность и уместность, отметив, что они достаточно сложны, чтобы требовать тщательного анализа, а не простого применения готовых методов.
  • GPT-5.6 Sol достигла уровня прохождения 28,7% на высшем уровне рассуждений, при этом производительность возрастает до 31,5% при включении режима Pro.
  • Результаты показывают, что масштабирование вычислений во время тестирования значительно улучшает производительность: GPT-5.6 Sol решает почти в шесть раз больше вопросов, чем GPT-5.2, используя меньше токенов.

Бенчмарк подчеркивает растущий разрыв между передовыми моделями и открытыми системами в области высокоуровневого научного рассуждения в условиях неопределенности, предполагая, что ИИ-помощь может ускорить темп и воспроизводимость биологических исследований.