Una nueva teoría modela cómo las paráfrasis semánticas pueden engañar a los clasificadores de sentimiento financiero analizando el desplazamiento en el peor caso de las representaciones del modelo objetivo. El índice de atacabilidad λ*(x) se deriva del mayor autovalor generalizado de un lápiz matricial (A,B), ofreciendo predicciones de forma cerrada y certificados de robustez para salidas afines. El marco conecta la teoría de perturbaciones continuas con la búsqueda discreta de paráfrasis, con validación empírica en clasificadores de texto financiero reales.
Geometría de Autovalores Generalizados de Ataques Adversarios Semánticos
Traducido del English → Español