arxiv
arXiv cs.CL
·
hace 3 h
Modelos Transformer: Arquitecturas, Aplicaciones y Evaluación Crítica
Esta revisión presenta una taxonomía de modelos de lenguaje basados en transformers a través de verticales de dominio, cubriendo variantes solo codificadoras, solo decodificadoras, codificador-decodificador, contexto largo, basadas en permutación y generador-discriminador. Evalúa avances posteriores a 2023 como el ajuste por instrucciones y la escalabilidad de mixture-of-experts, y analiza los despliegues de modelos en salud, finanzas, derecho, educación, servicio al cliente, escritura creativa y trabajo científico, vinculando cada uno a capacidades específicas. El artículo analiza críticamente las arquitecturas de modelos en cuatro ejes clave de despliegue, cuantifica la relación entre conteo de parámetros y costo energético, y examina cómo los métodos de alineación, el origen de los datos y la saturación de benchmarks definen el 'estado del arte'.