Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.

Бенчмарки

Бенчмарк	Модель	Результат
SWE-bench Verified	e4b	—
SWE-bench Verified	gemma4 e2b	—
SWE-bench Verified	Nex N2	—
SWE-bench Verified	Qwen3.5 35B	—
SWE-bench Verified	Qwen3.6 27B	—

Бенчмарк

Модель

Результат

SWE-bench Verified

e4b

—

SWE-bench Verified

gemma4 e2b

—

SWE-bench Verified

Nex N2

—

SWE-bench Verified

Qwen3.5 35B

—

SWE-bench Verified

Qwen3.6 27B

—