Un usuario evaluó modelos de 2B a 35B parámetros en 29 páginas difíciles de extracción de datos HTML, encontrando que modelos más pequeños como gemma4 e2b y e4b superan a los más grandes. Qwen3.6 27B lideró en rendimiento, mientras que todos los modelos MOE obtuvieron malos resultados, destacando la importancia de la evaluación específica para cada tarea.