TAC evalúa si los agentes de IA evitan la explotación animal en las reservas de viajes. Los siete modelos de vanguardia obtienen puntuaciones por debajo del 64% como nivel aleatorio, con Claude Opus 4.7 al 53%. Añadir un prompt del sistema consciente del bienestar mejora significativamente el rendimiento, aunque los modelos no muestran evidencia de conciencia de la evaluación en sus respuestas.
TAC: Primer benchmark agéntico para el bienestar animal en IA
Traducido del English → Español