Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.
- El protocolo requiere finalizar los procedimientos en modelos actuales, preregistrar el plan de análisis con un conjunto de modelos futuros elegibles y ejecutar el análisis en el primer modelo elegible lanzado posteriormente.
- La evaluación en 20 modelos de cuatro proveedores mostró que el protocolo bloqueó la transferencia exitosa del p-hack en el 73.9% y el 72.7% de los casos para dos tareas con valores verdaderos conocidos.
- Una prueba independiente que siguió el protocolo confirmó su efectividad, con el hacking fallando en transferirse en 6 de cada 7 configuraciones en el primer modelo elegible lanzado después de la preregistración.
Este método ayuda a garantizar la integridad de la investigación basada en LLM al dificultar la manipulación de resultados mediante ajustes iterativos, ya que las configuraciones que hackean un modelo a menudo no se transfieren al siguiente.