Se construyó un conjunto de datos con verdad fundamental de 2,076 oraciones anotadas por humanos procedentes de 83 informes complejos de CTI y se asignaron a 114 técnicas de ATT&CK con \k{appa} = 0.68 de acuerdo entre anotadores. Se evaluaron siete LLMs de código abierto que oscilan entre 8B y 236B parámetros, alcanzando una puntuación F1 micro-promediada máxima de 0.22. El tamaño del parámetro mostró una correlación positiva estadísticamente significativa con la puntuación F1, mientras que la estrategia de prompt y la temperatura no produjeron mejoras significativas, lo que indica que los LLMs actuales de código abierto son insuficientes para la clasificación de ATT&CK de grado de producción.