Impuesto de restricción en LLM de peso abierto: supresión de llamada a herramientas bajo restricciones de salida estructurada

Este estudio identifica un fenómeno llamado Supresión de Herramientas, donde los modelos de lenguaje de peso abierto dejan de invocar herramientas cuando se habilitan simultáneamente las restricciones de JSON Schema. Los autores observaron este comportamiento en un sistema de Agente en producción y lo reprodujeron mediante experimentos controlados a través de múltiples familias de modelos. Aunque la ejecución de herramientas y el cumplimiento del esquema funcionan correctamente cuando se evalúan independientemente, fallan bajo condiciones de implementación conjunta. El análisis revela que las restricciones de JSON Schema se compilan en máscaras de tokens basadas en gramática, haciendo que los tokens de llamada a herramientas sean inalcanzables durante la decodificación. Para interpretar estos hallazgos, el artículo propone la hipótesis de Inversión de Prioridad de Restricción, sugiriendo que la satisfacción del esquema domina la selección de acciones bajo restricciones simultáneas. Los autores mitigan este problema introduciendo Ejecución Transparente en Dos Pasos, una estrategia en tiempo de inferencia que desacopla la ejecución de herramientas de la generación de respuestas. Este enfoque restaura la invocación de herramientas mientras preserva las garantías de salida estructurada sin requerir el reentrenamiento del modelo. La investigación destaca que evaluar las capacidades por separado puede pasar por alto problemas críticos de confiabilidad en sistemas de producción.