BehaviorBench presenta un benchmark integral para evaluar modelos fundamentales en cuatro capacidades de la ciencia del comportamiento: predicción de conducta, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimientos. Evalúa los modelos tanto a nivel individual como distribucional, revelando que los modelos fundamentales conductuales como Be.FM-1.5 logran una alineación distribucional más fuerte que los modelos de propósito general, destacando la necesidad de evaluación distribucional en IA conductual.
BehaviorBench lanza un benchmark para modelos de IA conductual
Traducido del English → Español