Modelos de Transformer ligeros para detección de fallos en dispositivo: Un estudio de referencia sobre implementación con recursos limitados

Este estudio compara métodos tradicionales de aprendizaje automático frente a arquitecturas de transformer ligeras para la detección binaria de fallos en tres conjuntos de datos públicos, evaluando los compromisos entre precisión, tamaño del modelo y latencia. La investigación evalúa el rendimiento de clasificación utilizando F1-score y AUC, mientras también prueba la cuantización dinámica INT8 y un pipeline de inferencia adaptativo en dos etapas para optimizar la implementación en hardware con recursos limitados.

Los transformers ligeros igualaron al ML tradicional con un F1-score del 87.8% en el conjunto de datos C-MAPSS, pero requirieron un tamaño de modelo 100 veces mayor y una latencia 9000 veces mayor.
TinyBERT-4L fue identificado como el transformer más adecuado para implementación, con un tamaño de 55 MB y una latencia de CPU de 18 ms.
La cuantización INT8 redujo el tamaño del modelo en un 25% mientras mantenía un F1-score del 86.9%.
Un pipeline de inferencia adaptativo logró un F1-score del 87.6% con una latencia promedio de 19.5 ms, enrutando el 97.9% de las predicciones a través de un modelo de triaje cuantizado.
Tanto los métodos tradicionales como los transformers tuvieron dificultades significativas en conjuntos de datos severamente desbalanceados como SECOM y UCI-PM, destacando limitaciones para un desbalance extremo de clases.

Los hallazgos proporcionan información crítica para desplegar sistemas de detección de fallos en dispositivos edge, demostrando que aunque los transformers ligeros pueden igualar la precisión tradicional, se requiere una optimización significativa para mitigar sus altos costos de recursos.