TxBench-PP — это проверяемая оценка для проклинической фармакологии маломолекулярных соединений, проверяющая способность AI-агентов делать точные выводы на основе реальных данных о пробах. При 16 конфигурациях моделей ни одна система не проходила все оценки, лучшая настройка (Claude Opus 4.8 / Pi) достигла 59,3% успеха при 300 попытках на конечных точках.