Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.