Los modelos de lenguaje grandes pueden producir texto jurídico de calidad mediana, pero ningún benchmark evalúa su capacidad para realizar razonamiento jurídico doctrinal. Esta brecha socava el requisito del Reglamento de IA de la UE sobre 'precisión adecuada' en la IA judicial, ya que la evaluación necesaria del razonamiento doctrinal sigue ausente.