Este estudio reproduce los resultados de AlphaEdit, un método de proyección con restricción en el espacio nulo para la edición de conocimiento en modelos de lenguaje, y amplía la evaluación a arquitecturas más recientes y horizontes de edición secuencial más largos. Los autores confirman que AlphaEdit funciona según lo reportado dentro de su alcance original, pero identifican limitaciones significativas en cuanto a generalización y escalabilidad.
- El estudio reproduce con éxito las métricas de AlphaEdit en LLaMA3, GPT2-XL y GPT-J, aunque identifica una discrepancia en las métricas de fluidez y consistencia reportadas.
- Extender AlphaEdit a nuevas familias de modelos revela que su ventaja no se generaliza uniformemente debido a supuestos arquitecturales violados en el paradigma de localizar-entonces-editar.
- El rendimiento se degrada a medida que el número de ediciones secuenciales aumenta muy más allá de la escala original, lo que indica que la protección contra el olvido catastrófico proporcionada por la proyección en el espacio nulo está acotada.
- La evaluación en benchmarks adicionales (BoolQ, HellaSwag y XSTest) muestra que la edición secuencial a gran escala degrada tanto la competencia general en tareas posteriores como el comportamiento de rechazo relevante para la seguridad.
Los resultados demuestran que, si bien AlphaEdit funciona según lo previsto en su contexto original, sus garantías teóricas centrales son sensibles a la arquitectura del modelo y a la escala de edición, lo cual tiene implicaciones prácticas para su despliegue.