PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones pseudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27.4% de resistencia a las narrativas pseudocientíficas, con agentes más fuertes que a menudo utilizan lenguaje científico sofisticado para enmascarar la pseudociencia.
PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica a la pseudociencia
Traducido del English → Español