TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.