ObviousBench: Un benchmark para fallos evidentes de LLM en modelos más pequeños
ObviousBench es un nuevo benchmark diseñado para evaluar fallos visibles en modelos de lenguaje grandes, centrándose en cómo las elecciones de configuración impactan las tasas de error. La herramienta destaca los compromisos entre el tamaño del modelo, la velocidad y las capacidades de razonamiento en lugar de simplemente clasificar el rendimiento.