Оценка малых моделей LLM на сложных данных из HTML
Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.