BehaviorBench presenta un benchmark integral para evaluar modelos fundamentales en cuatro capacidades de la ciencia del comportamiento: predicción de conducta, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimientos. Evalúa los modelos tanto a nivel individual como distribucional, revelando que los modelos fundamentales conductuales como Be.FM-1.5 logran una alineación distribucional más fuerte que los modelos de propósito general, destacando la necesidad de evaluación distribucional en IA conductual.