Un estudio encuentra que las normas grandes de la cabeza MLM en codificadores preentrenados degradan el rendimiento de la recuperación dispersa en SPLADE. Introducir un reescalado simple en el momento de la inicialización de la cabeza MLM estabiliza el entrenamiento y mejora el rendimiento, igualando o superando a BERT-SPLADE en múltiples benchmarks.