Un usuario evaluó ocho modelos locales en un benchmark personalizado de rol de fantasía medieval que cubre la finalización de misiones, finales de escenas y detección de personajes. La prueba fue juzgada por un calificador LLM externo con diferentes tamaños de muestra por categoría.
- Gemma-4-31B logró la tasa de aprobación general más alta del 87%.
- Qwen3.6-27B siguió de cerca con una tasa de aprobación del 82%.
- Gemma-4-12B obtuvo un 80%, mientras que los modelos más pequeños oscilaron entre el 55% y el 70%.
- La evaluación reveló caídas significativas de rendimiento en subcategorías específicas como los pensamientos de NPC, que estaban enmascaradas por las puntuaciones generales.
El autor destaca que mirar solo los porcentajes generales oculta las capacidades desiguales de los modelos en diferentes tareas de rol.