Variabilidad en el descubrimiento de circuitos de LLM: causas y mitigaciones
Este artículo analiza la variabilidad en el descubrimiento de circuitos para modelos de lenguaje grandes, identificando remuestreo, reformulación y variabilidad por muestra. Muestra que CEAP reduce la variabilidad por remuestreo y argumenta que la variabilidad por reformulación proviene de plantillas de prompt que activan diferentes circuitos, lo que implica que los LLM pueden ser inherentemente difíciles de controlar. El estudio también encuentra que la dispersión no resuelve estos problemas y que la variabilidad por muestra es en gran medida benigna debido a la escalación de contribución selectiva que afecta las puntuaciones de infidelidad.