Los modelos de lenguaje pequeños superan a los LLM de vanguardia en extracción de relaciones

Un SLM de 300M parámetros ajustado finamente con datos de dominio general alcanza un micro-F1 de 0.83 en la extracción de relaciones de dominio general, superando a GPT-5.4 y Claude Sonnet 4.6 en modo zero-shot. En benchmarks literarios, el SLM alcanza 0.92 en el conjunto de datos Biográfico, superando a GPT-5.4 y excediendo a los modelos de vanguardia en promedio. Estos resultados demuestran que los modelos pequeños adaptados a la tarea pueden ofrecer un rendimiento preciso, privado y eficiente en hardware sin depender de modelos generativos a gran escala.

Benchmark	Modelo	Puntuación
SWE-bench	Qwen2.5-0.5B	0.83pts
SWE-bench	GPT-5.4	0.69pts
SWE-bench	Claude Sonnet 4.6	0.66pts

Benchmarks