La información errónea puede dañar a los agentes LLM que utilizan herramientas
Los estudios muestran que la información engañosa puede hacer que los agentes LLM rindan peor que sin ninguna información. En HotpotQA, Qwen2.5-7B baja de 44.8 a 4.7 F1 bajo recuperación desordenada, a pesar de tener herramientas limpias. Estos resultados indican que las ganancias por el uso de herramientas pueden estar exageradas y que los controles sin información son esenciales para una evaluación válida.