Авторы представляют Электро-Визуально-Языкового Ассистента (EVLA), фреймворк, который интегрирует мультимодальное понимание сцены с восприятием в реальном времени электромеханического состояния электрифицированной силовой установки для улучшения решений при вождении. Этот подход устраняет ограничение существующих визуальных языковых моделей, которые рассматривают динамику автомобиля как черный ящик, путем включения физических ограничений и целей оптимизации.
- EVLA использует Единый кодировщик ко-состояния (UCSE) для слияния визуальных, текстовых и входных данных состояния транспортного средства в общее латентное представление, дополненное полем энергоэффективности.
- Фреймворк применяет Электро-осознанную структурированную цепь рассуждений (ESRC), которая заменяет внешнее стимулирование цепью мыслей внутренним детерминированным процессом рассуждения.
- EVLA обучается сквозным образом с использованием физически обоснованной совместной функции потерь для генерации контекстно-осознанных и энергооптимальных решений при вождении.
- Оценка на бенчмарке вопросов и ответов по вождению показывает, что EVLA превосходит базовые модели VLM с дообучением, улучшая итоговый балл на +0.0871 и точность на +5.6%.
- Анализ эффективности указывает, что EVLA обеспечивает вывод на 36% быстрее по сравнению с многоэтапными конвейерами.
Интеграция осознания состояния транспортного средства со структурированным физическим рассуждением представлена как ключевая для разработки ассистентов вождения следующего поколения, которые являются как физически обоснованными, так и энергоэффективными.