arxiv arXiv cs.LG · hace 1 h · fuente: hace 11 d · research

Ingeniería inversa de la atención en Transformers mediante programas ejecutables

Traducido del English → Español

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Estos programas logran más del 75% de similitud promedio Intersection-over-Union en datos no vistos y pueden reemplazar hasta el 25% de las cabezas de atención con impacto mínimo en el rendimiento del modelo, aumentando la perplexidad solo un 16% en promedio.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.LG OpenAI Meta AI Mistral AI AI agents Open weights Reasoning models

Leer original