HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.