BehaviorBench: Evaluación de modelos fundamentales para tareas de ciencias del comportamiento

Los autores presentan BehaviorBench, un benchmark integral diseñado para evaluar modelos fundamentales en diversas tareas y poblaciones de ciencias del comportamiento. El estudio evalúa cuatro capacidades principales—predicción de comportamiento, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimiento conductual—tanto a nivel individual como distribucional.

BehaviorBench evalúa las salidas del modelo a nivel individual y distribucional para capturar la alineación a nivel poblacional esencial para la validez conductual.
El benchmark prueba cuatro capacidades: predicción/simulación de comportamiento, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimiento conductual.
Be.FM-1.5 se desarrolla como una extensión de la familia Be.FM, ajustado finamente en datos de comportamiento utilizando tareas de BehaviorBench.
Los modelos generales propietarios de código cerrado sobresalen en la predicción a nivel individual, mientras que los modelos fundamentales de comportamiento logran una alineación distribucional más fuerte.
Be.FM-1.5 lidera en métricas distribucionales y se mantiene competitivo en métricas a nivel individual, lo que sugiere que una adaptación adecuada puede cerrar la brecha.

Los resultados destacan la importancia de la evaluación distribucional para desarrollar sistemas de IA alineados con el comportamiento y demuestran el potencial de Be.FM-1.5 para una amplia gama de estudios de ciencias del comportamiento.