Los modelos de lenguaje grandes superaron a los humanos y a los modelos supervisados en la predicción del próximo hablante utilizando el corpus AMI, a pesar de carecer de datos audiovisuales y entrenamiento por dominio. Los LLM multimodales superaron a los LLM basados en texto en la detección de destinatarios y cambios de turno, pero aún quedaron por debajo del rendimiento humano, lo que destaca los desafíos al utilizar señales audiovisuales crudas. Los estudios de ablation muestran que el contexto conversacional es crucial, especialmente para la predicción del próximo hablante, con humanos y LLM luchando durante cambios frecuentes de turno.