Des-aprendizaje natural: Control asimétrico de qué reglas sobreviven al preentrenamiento

Un estudio identifica el 'des-aprendizaje natural', un fenómeno en el que los modelos de lenguaje pequeños pierden reglas gramaticales aprendidas a mitad del preentrenamiento a pesar de que la evidencia permanece en los datos. Los investigadores observaron que un modelo que aprendía concordancia de pronombre-género con Sue colapsó de una precisión de 0.94 a cerca de cero en el paso 3,500 sin ningún pico correspondiente en la curva de pérdida. La supervivencia de estas reglas está determinada por la frecuencia de soporte dentro del flujo de entrenamiento, mientras que la relación datos-parámetro solo modula la profundidad del colapso. Esta dinámica de emergencia-entonces-colapso se replicó en múltiples corpus, presupuestos y semillas, y se confirmó en puntos de control Pythia públicos donde la profundidad del colapso se correlacionó con la escala del modelo. El proceso de olvido actúa como un mecanismo de desplazamiento donde un patrón superficial competidor supera a la regla, haciendo que el margen de log-probabilidad cruce cero dentro de los 100 pasos del fallo conductual. El control sobre este destino es asimétrico; mientras que inyectar contra-evidencia puede destruir reglas mediante una respuesta dosis-monótona, restaurar el soporte incluso a 450 veces el nivel sostenible no logra recuperarlas.