AgentCIBench presenta un benchmark para evaluar los riesgos de privacidad en agentes de uso informático. Identifica tres modos de fallo clave: co-localización visual, exceso de información por ambigüedad de tarea y desalineación del destinatario, y encuentra que 11 de los 15 agentes evaluados filtran datos personales en más del 50% de los escenarios, con una filtración promedio del 67.9%.
AgentCIBench evalúa los riesgos de privacidad en agentes de uso informático
Traducido del English → Español