Este artículo analiza los embeddings multimodales a nivel de oración no secuenciales, centrándose en el modelo SONAR, para demostrar que dimensiones específicas del embedding son sensibles a perturbaciones y pueden indicar anomalías de decodificación. Al aprovechar la consistencia entre la codificación y decodificación sucesivas, los autores construyen con éxito un detector de anomalías preciso.

  • El estudio se centra en embeddings multimodales a nivel de oración no secuenciales, con especial énfasis en el modelo SONAR.
  • Se identifican ciertas dimensiones del embedding como sensibles a perturbaciones, actuando como indicadores de anomalías de decodificación.
  • Se construye un detector preciso aprovechando la consistencia entre los procesos sucesivos de codificación y decodificación.
  • Los autores exploran modificar dimensiones específicas de interés en un intento por corregir las anomalías detectadas.

Este trabajo subraya la importancia de comprender y analizar los propios embeddings para mejorar la fiabilidad de las representaciones multimodales.