¿Qué tan lejos llegan los LLM abiertos on-prem en Text-to-SQL? Una frontera de tamaño x técnica entre familias en BIRD

Este estudio evalúa el rendimiento de modelos de lenguaje grandes de peso abierto que se ejecutan on-premises para tareas de text-to-SQL utilizando un benchmark reproducible en la división de desarrollo de BIRD. Compara tres familias de modelos a lo largo de dos generaciones, ablando técnicas específicas para mejorar la precisión y determinar su valor real.

Qwen2.5-Coder domina a CodeLlama en tamaños equivalentes, con 39.1% frente a 20.9% de precisión de ejecución en 7B parámetros.
Llama-3.3-70B logra resultados competitivos de 49.2% bajo un protocolo de servicio equivalente, lo que indica que la generación importa más que el tamaño bruto.
La autocorrección proporciona una mejora robusta y estadísticamente significativa en las tres familias de modelos donde hay margen de mejora.
El enlace de esquema no ofrece beneficio estadístico, ya que un vinculador con 96.5% de recall de tablas correctas se comporta de manera indistinguible de no realizar ningún enlace.
La consistencia interna produce un valor pobre, añadiendo solo 0.13 puntos porcentuales por aproximadamente cinco veces el costo en tokens y sin significancia estadística.

Los autores reportan los costos reales por etapa y liberan todo el código, predicciones y resúmenes para ayudar a las organizaciones a determinar qué recetas de precisión valen la pena sus recursos de cómputo.