SpeechCombine: modelo de lenguaje de habla que sigue instrucciones sin ajuste fino de instrucciones

Los investigadores proponen SpeechCombine, un modelo de lenguaje de habla que sigue instrucciones, entrenado sin ajuste fino de instrucciones combinando la diferencia de pesos de una LLM de texto con pesos adaptados al habla.

El método utiliza solo una ronda de preentrenamiento de habla en 30k horas de datos.
Comienza desde un modelo base de LLM de texto y realiza preentrenamiento continuo en utterances de habla.
El enfoque combina directamente los pesos adaptados al habla con la diferencia entre las versiones de LLM de texto ajustadas por instrucciones y la versión base.
Los resultados muestran que la estrategia preserva el conocimiento original de la LLM de texto mientras transfiere efectivamente capacidades al dominio del habla.

Este hallazgo sugiere una nueva dirección para el entrenamiento de SLM que evita depender de grandes cantidades de datos de habla.