Reescalado de la cabeza MLM para recuperación dispersa neuronal

Un estudio encuentra que las normas grandes de la cabeza MLM en codificadores preentrenados degradan el rendimiento de la recuperación dispersa en SPLADE. Introducir un reescalado simple en el momento de la inicialización de la cabeza MLM estabiliza el entrenamiento y mejora el rendimiento, igualando o superando a BERT-SPLADE en múltiples benchmarks.