PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica frente a la seudociencia

PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones seudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27,4% de resistencia a las narrativas seudocientíficas. Los sistemas actuales suelen presentar la seudociencia con lenguaje científico creíble, lo que destaca un riesgo crítico para la integridad científica.