CircuitLasso: Aprendizaje de circuitos escalable para la interpretabilidad de LLM
CircuitLasso propone un método escalable para aprender circuitos dispersos en modelos de lenguaje grandes utilizando regresión lineal dispersa. Logra una precisión estructural comparable a los métodos basados en intervención de última generación con un costo computacional significativamente menor, mientras permite el descubrimiento eficiente de la propagación de características semánticas y mejora el rendimiento en tareas de generalización de dominio con un costo reducido.