Uso de artefactos internos de LLM para mejorar la fiabilidad de la clasificación legal

Este estudio explora el aprovechamiento de artefactos internos de modelos de lenguaje grandes para detectar predicciones incorrectas en tareas de clasificación legal. El enfoque utiliza características de estos artefactos para construir clasificadores que identifiquen salidas erróneas en las predicciones de decisiones de fianza y violaciones de estatutos. Los resultados muestran que los artefactos internos indican de manera confiable respuestas incorrectas, mejorando la fiabilidad general de los sistemas de clasificación legal basados en LLM.