Cómo los modelos de lenguaje grandes obtienen la reputación de marca a través de idiomas y mercados
Este estudio analiza las fuentes de citación utilizadas por los modelos de lenguaje grandes al responder preguntas sobre marcas, centrándose en las referencias web subyacentes en lugar de solo el texto generado. Los investigadores fusionaron tres conjuntos de datos de Rankfor.AI para examinar 167,551 citas basadas en URLs a lo largo de 128 marcas en 12 mercados locales y 13 idiomas. El análisis revela que la IA fundamenta las respuestas sobre marcas abrumadoramente en fuentes de terceros, con el 85.7% de las citas apuntando a sitios que la marca no posee en comparación con solo el 14.3% para dominios propios. La base de fuentes está altamente concentrada y sigue una ley de Zipf, donde el 80% de las citas provienen de aproximadamente el 18% de los dominios. Wikipedia emerge como el sitio de referencia dominante, siendo el dominio más citado en 11 de los 13 idiomas estudiados. La única excepción es el lituano, donde el diario económico vz.lt supera ligeramente a Wikipedia con una cuota del 4.38%. Además, la mezcla de fuentes muestra variaciones específicas del mercado, como YouTube siendo el dominio más citado para las marcas nacionales polacas y los portales de recursos humanos que proporcionan más citas que Wikipedia en polaco.