TAC: Primer benchmark agéntico para el bienestar animal en IA
TAC evalúa si los agentes de IA evitan la explotación animal en las reservas de viajes. Los siete modelos de vanguardia obtienen puntuaciones por debajo del 64% como nivel aleatorio, con Claude Opus 4.7 al 53%. Añadir un prompt del sistema consciente del bienestar mejora significativamente el rendimiento, aunque los modelos no muestran evidencia de conciencia de la evaluación en sus respuestas.