media r/LocalLLaMA · hace 2 h · fuente: hace 10 d · open_models

HalBench evalúa 29 modelos de código abierto en sicolofía y alucinación

Traducido del English → Español

HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.

Importancia 3/3 Supera un benchmark de un laboratorio puntero r/LocalLLaMA Alibaba (Qwen) DeepSeek Mistral AI Evaluation & benchmarks Reasoning models Safety & alignment

Leer original