Los modelos de lenguaje grandes pueden generar texto legal de calidad mediana, pero ningún benchmark evalúa su capacidad para realizar razonamiento jurídico doctrinal. Esta brecha socava el requisito del Reglamento de IA de la UE sobre 'precisión apropiada' en la IA judicial, ya que la definición operativa necesaria carece de un estándar de evaluación del razonamiento doctrinal.