Esta investigación presenta el primer conjunto de datos multimodal público de 100 pares alineados de audio-transcripción para llamadas de estafa y benignas en turco. Evalúa siete modelos de lenguaje grandes bajo entradas de audio crudo, transcripción automática y transcripción corregida por humanos, encontrando que las entradas basadas en transcripción superan al procesamiento directo de audio, con la corrección humana teniendo un impacto mínimo.