Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.
media
r/LocalLLaMA
·
7 д назад
·
open_models
Оценка малых моделей LLM на сложных данных из HTML
Переведено с English → Русский
Важность 2/3
r/LocalLLaMA
Alibaba (Qwen)
Google DeepMind
Mistral AI
Code generation
Evaluation & benchmarks
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench Verified | e4b | — |
| SWE-bench Verified | gemma4 e2b | — |
| SWE-bench Verified | Nex N2 | — |
| SWE-bench Verified | Qwen3.5 35B | — |
| SWE-bench Verified | Qwen3.6 27B | — |