EVLA: Un Asistente Multimodal Consciente de la Electrificación para el Razonamiento y Control de Conducción Fundamentado en lo Físico
Los autores presentan el Asistente Electro-Visual-Lingüístico (EVLA), un marco que integra la comprensión multimodal de escenas con la percepción en tiempo real del estado electromecánico de un tren motriz electrificado para mejorar las decisiones de conducción. Este enfoque aborda la limitación de los modelos visuales-lingüísticos existentes que tratan la dinámica del vehículo como una caja negra, incorporando restricciones físicas y objetivos de optimización.