arxiv arXiv cs.CL · hace 2 h · fuente: hace 5 d · research

YaRN aleatorizado mejora la generalización de longitud para el razonamiento de contexto largo

Traducido del English → Español

YaRN aleatorizado mejora el razonamiento de contexto largo combinando la extrapolación posicional de YaRN con codificación posicional aleatorizada y un currículo de longitud. Supera al ajuste fino estándar en benchmarks como BABILong y MRCR, mostrando ganancias significativas en longitudes de contexto muy fuera de distribución.

Importancia 2/3 arXiv cs.CL Reasoning models Training methods

Leer original