SpeechCombine: modelo de linguagem de fala que segue instruções sem ajuste fino de instruções

Pesquisadores propõem o SpeechCombine, um modelo de linguagem de fala que segue instruções, treinado sem ajuste fino de instruções ao combinar a diferença de pesos de uma LLM de texto com pesos adaptados à fala.

O método usa apenas uma rodada de pré-treinamento de fala em 30k horas de dados.
Ele começa a partir de um modelo base de LLM de texto e realiza pré-treinamento contínuo em utterances de fala.
A abordagem combina diretamente os pesos adaptados à fala com a diferença entre as versões da LLM de texto ajustadas por instruções e a versão base.
Os resultados mostram que a estratégia preserva o conhecimento original da LLM de texto enquanto transfere efetivamente capacidades para o domínio da fala.

Essa descoberta sugere uma nova direção para o treinamento de SLM que evita a dependência de grandes volumes de dados de fala.