Los autores presentan el Asistente Electro-Visual-Lingüístico (EVLA), un marco que integra la comprensión multimodal de escenas con la percepción en tiempo real del estado electromecánico de un tren motriz electrificado para mejorar las decisiones de conducción. Este enfoque aborda la limitación de los modelos visuales-lingüísticos existentes que tratan la dinámica del vehículo como una caja negra, incorporando restricciones físicas y objetivos de optimización.
- EVLA utiliza un Codificador Unificado de Estado Co-Estado (UCSE) para fusionar entradas visuales, textuales y de estado del vehículo en una representación latente compartida, aumentada con un Campo de Eficiencia Energética.
- El marco emplea una Cadena de Razonamiento Estructurada Consciente de la Electrificación (ESRC) que reemplaza el prompting de cadena de pensamiento externa con un proceso de razonamiento interno y determinista.
- EVLA se entrena de extremo a extremo utilizando una pérdida conjunta guiada por física para generar decisiones de conducción conscientes del contexto y óptimas en energía.
- Las evaluaciones en un benchmark de preguntas y respuestas sobre conducción muestran que EVLA supera a las líneas base de VLM ajustadas, mejorando la puntuación final en +0.0871 y la precisión en +5.6%.
- Los análisis de eficiencia indican que EVLA logra una inferencia 36% más rápida en comparación con los pipelines de múltiples etapas.
Se presenta la integración de la conciencia del estado del vehículo con el razonamiento físico estructurado como crucial para desarrollar asistentes de conducción de próxima generación que sean tanto fundamentados físicamente como energéticamente eficientes.