Les chercheurs proposent SpeechCombine, un modèle de langage vocal suivant les instructions entraîné sans ajustement des instructions en combinant la différence de poids d'un LLM textuel avec des poids adaptés au vocal.

  • La méthode utilise uniquement un seul round de pré-entraînement vocal sur 30k heures de données.
  • Elle part d'un modèle de base LLM textuel et effectue un pré-entraînement continu sur des énoncés vocaux.
  • L'approche combine directement les poids adaptés au vocal avec la différence entre les versions LLM textuel ajustées aux instructions et le modèle de base textuel.
  • Les résultats montrent que la stratégie préserve les connaissances originales du LLM textuel tout en transférant efficacement les capacités au domaine vocal.

Cette découverte suggère une nouvelle direction pour l'entraînement des SLM qui évite de dépendre de masses de données vocales.