Un nuevo marco de evaluación mide la divergencia entre las ideas de investigación generadas por modelos de lenguaje grandes y las producidas por investigadores humanos. El estudio reconstruye trabajos previos a partir de artículos de alta calidad para generar prompts en LLM, luego perfila las salidas utilizando una taxonomía de gusto de investigación de dos ejes basada en patrones de oportunidades y paradigmas de investigación.
- Las ideas generadas por LLM están desproporcionadamente concentradas alrededor de oportunidades tipo puente y métodos de síntesis.
- Las referencias a artículos humanos se distribuyen más ampliamente entre las formas de enmarcar vacíos y construir contribuciones.
- La brecha distributiva es consistente entre diferentes LLM, lo que indica un cambio sistemático con respecto al gusto humano.
Los resultados sugieren que, aunque los LLM fuertes pueden producir ideas razonables, su rango sigue siendo más estrecho que el de los investigadores humanos.