TW-LegalBench: Evaluando LLMs en la Ley de Taiwán
TW-LegalBench introduce un benchmark que utiliza el corpus legal público de Taiwán para evaluar el rendimiento de los modelos de lenguaje grandes en la ley taiwanesa. Incluye más de 16,000 preguntas de opción múltiple, 117 preguntas de ensayo abiertas con rúbricas de puntuación y más de 14,000 instancias de predicción de fallos. La evaluación muestra que los mejores modelos superan los umbrales de aprobación de los abogados (11%) pero se quedan cortos en el nivel de jueces/fiscales (1-2%), y tienen dificultades con las citas precisas de artículos legales en las predicciones de sentencias.