arxiv
arXiv cs.CL
·
hace 6 h
La ceguera del léxico de palabras clave distorsiona la medición de la postura retórica
Un estudio que analiza 85 entrevistas con cuatro intelectuales públicos revela que la puntuación basada en palabras clave puede producir artefactos estadísticos respecto a la postura retórica. El análisis inicial mostró un patrón robusto de co-ocurrencia entre afecto negativo y certeza enfática, con coeficientes de correlación altos que oscilan entre r = 0.72 y 0.93. Sin embargo, reemplazar este método con una clasificación semántica zero-shot basada en LLM sobre el corpus diarizado completo de 32,625 oraciones redujo significativamente estas correlaciones. Por ejemplo, la correlación de Dalio bajó de 0.851 a 0.206, mientras que otros hablantes exhibieron relaciones negativas o nulas entre negatividad y certeza. En contraste, el análisis con LLM reveló un fuerte acoplamiento entre sentimiento negativo y lenguaje hedging (de cautela), alineándose con las expectativas convencionales del discurso pesimista. La discrepancia se debe a tres fallas estructurales en los léxicos de palabras clave: ceguera sintáctica, ceguera a la polisemia y ausencia categórica. Estos defectos pueden invertir el significado semántico, como puntuar 'nunca absolutamente totalmente seguro' como alta certeza. Los autores argumentan que los conteos de palabras clave miden tendencias de co-ocurrencia léxica en lugar de certeza epistémica, constituyendo un error de categoría.