TW-LegalBench представляет бенчмарк, использующий публичный правовой корпус Тайваня для оценки производительности крупных языковых моделей в области тайваньского права. В нём содержится более 16 000 вопросов с выбором ответа, 117 открытых вопросов с критериями оценки и более 14 000 примеров предсказания решений. Оценка показывает, что лучшие модели превышают порог сдачи аттестации юриста (11%), но не достигают уровня судьи или прокурора (1–2%), и испытывают трудности при точном цитировании правовых статей в предсказаниях наказаний.