Esta investigación investiga el uso de modelos de lenguaje grandes para detectar llamadas telefónicas fraudulentas en turco, un idioma con pocos recursos donde los datos anotados son escasos. El estudio presenta el primer conjunto de datos multimodal público que contiene 100 pares alineados de audio y transcripción de conversaciones fraudulentas y benignas.

  • Se evaluaron siete LLMs a través de tres familias: Gemini 2.5 (Flash, Flash-Lite, Pro), GPT-4o y Qwen (Max, Plus, Turbo).
  • Se probaron tres condiciones de entrada: audio sin procesar, transcripciones automáticas de voz a texto y transcripciones refinadas por un hablante nativo.
  • Se encontró que las entradas basadas en transcripciones superan consistentemente al procesamiento directo de audio.
  • Se observó que las transcripciones corregidas y no corregidas por humanos tienen un rendimiento comparable.

El trabajo destaca la urgente necesidad de una investigación de seguridad de IA cultural y lingüísticamente inclusiva, así como sistemas multimodales más robustos para la prevención del fraude.