media r/LocalLLaMA · hace 1 h · fuente: hace 9 d · open_models

Evaluación de pequeños LLMs en extracción de datos HTML compleja

Traducido del English → Español

Un usuario evaluó modelos de 2B a 35B parámetros en 29 páginas difíciles de extracción de datos HTML, encontrando que modelos más pequeños como gemma4 e2b y e4b superan a los más grandes. Qwen3.6 27B lideró en rendimiento, mientras que todos los modelos MOE obtuvieron malos resultados, destacando la importancia de la evaluación específica para cada tarea.

Importancia 2/3 r/LocalLLaMA Alibaba (Qwen) Google DeepMind Mistral AI Code generation Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
SWE-bench Verified	e4b	—
SWE-bench Verified	gemma4 e2b	—
SWE-bench Verified	Nex N2	—
SWE-bench Verified	Qwen3.5 35B	—
SWE-bench Verified	Qwen3.6 27B	—

Leer original