Pesquisadores propõem o SpeechCombine, um modelo de linguagem de fala que segue instruções, treinado sem ajuste fino de instruções ao combinar a diferença de pesos de uma LLM de texto com pesos adaptados à fala.
- O método usa apenas uma rodada de pré-treinamento de fala em 30k horas de dados.
- Ele começa a partir de um modelo base de LLM de texto e realiza pré-treinamento contínuo em utterances de fala.
- A abordagem combina diretamente os pesos adaptados à fala com a diferença entre as versões da LLM de texto ajustadas por instruções e a versão base.
- Os resultados mostram que a estratégia preserva o conhecimento original da LLM de texto enquanto transfere efetivamente capacidades para o domínio da fala.
Essa descoberta sugere uma nova direção para o treinamento de SLM que evita a dependência de grandes volumes de dados de fala.