Este estudio evalúa el rendimiento de modelos de lenguaje grandes de peso abierto que se ejecutan on-premises para tareas de text-to-SQL utilizando un benchmark reproducible en la división de desarrollo de BIRD. Compara tres familias de modelos a lo largo de dos generaciones, ablando técnicas específicas para mejorar la precisión y determinar su valor real.

  • Qwen2.5-Coder domina a CodeLlama en tamaños equivalentes, con 39.1% frente a 20.9% de precisión de ejecución en 7B parámetros.
  • Llama-3.3-70B logra resultados competitivos de 49.2% bajo un protocolo de servicio equivalente, lo que indica que la generación importa más que el tamaño bruto.
  • La autocorrección proporciona una mejora robusta y estadísticamente significativa en las tres familias de modelos donde hay margen de mejora.
  • El enlace de esquema no ofrece beneficio estadístico, ya que un vinculador con 96.5% de recall de tablas correctas se comporta de manera indistinguible de no realizar ningún enlace.
  • La consistencia interna produce un valor pobre, añadiendo solo 0.13 puntos porcentuales por aproximadamente cinco veces el costo en tokens y sin significancia estadística.

Los autores reportan los costos reales por etapa y liberan todo el código, predicciones y resúmenes para ayudar a las organizaciones a determinar qué recetas de precisión valen la pena sus recursos de cómputo.