Un usuario evaluó modelos de 2B a 35B parámetros en 29 páginas difíciles de extracción de datos HTML, encontrando que modelos más pequeños como gemma4 e2b y e4b superan a los más grandes. Qwen3.6 27B lideró en rendimiento, mientras que todos los modelos MOE obtuvieron malos resultados, destacando la importancia de la evaluación específica para cada tarea.
media
r/LocalLLaMA
·
hace 1 h
·
fuente: hace 9 d
·
open_models
Evaluación de pequeños LLMs en extracción de datos HTML compleja
Traducido del English → Español
Importancia 2/3
r/LocalLLaMA
Alibaba (Qwen)
Google DeepMind
Mistral AI
Code generation
Evaluation & benchmarks
Reasoning models
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench Verified | e4b | — |
| SWE-bench Verified | gemma4 e2b | — |
| SWE-bench Verified | Nex N2 | — |
| SWE-bench Verified | Qwen3.5 35B | — |
| SWE-bench Verified | Qwen3.6 27B | — |