Tejido del Pensamiento Formal: Unir la Validación Sintáctica Rigurosa con Representaciones Estructurales Aprendidas
Los autores presentan Weave of Formal Thought (WoFT), un paradigma que combina validación sintáctica rigurosa con representaciones estructurales aprendidas para la generación de código. El enfoque utiliza un motor formal y un decodificador restringido que es correcto y completo respecto a la especificación completa de Tree-sitter. Al augmentar el análisis LR generalizado con lexificación especulativa, el sistema mantiene hipótesis concurrentes del estado del lexer para admitir prefijos válidos de programas mientras rechaza los inválidos. Además, WoFT emplea ajuste fino de variables latentes para entrenar modelos a intercalar símbolos de gramática no terminal directamente en el proceso de generación. Este método utiliza el algoritmo wake-sleep reponderado para optimizar el límite inferior de evidencia ponderado por importancia del texto superficial. El modelo aprende a retener selectivamente derivaciones formales como una pizarra estructural adaptativa durante la inferencia. Los experimentos en Python muestran que el ajuste fino de StarCoder2-3B con este objetivo reduce la entropía cruzada por token en un 14.3% en comparación con una línea base solo de texto.