Mitigación del p-hacking basado en LLM mediante la preregistración para el siguiente LLM

Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.

El protocolo requiere finalizar los procedimientos en modelos actuales, preregistrar el plan de análisis con un conjunto de modelos futuros elegibles y ejecutar el análisis en el primer modelo elegible lanzado posteriormente.
La evaluación en 20 modelos de cuatro proveedores mostró que el protocolo bloqueó la transferencia exitosa del p-hack en el 73.9% y el 72.7% de los casos para dos tareas con valores verdaderos conocidos.
Una prueba independiente que siguió el protocolo confirmó su efectividad, con el hacking fallando en transferirse en 6 de cada 7 configuraciones en el primer modelo elegible lanzado después de la preregistración.

Este método ayuda a garantizar la integridad de la investigación basada en LLM al dificultar la manipulación de resultados mediante ajustes iterativos, ya que las configuraciones que hackean un modelo a menudo no se transfieren al siguiente.