media r/LocalLLaMA · hace 2 h · fuente: hace 10 d · open_models

SIQ-1 Qwen3.6 logra un rendimiento destacado en autoresearch y benchmarking

Traducido del English → Español

El modelo SIQ-1, entrenado con PPO y recompensa verificable, supera a GLM-5.2 y Qwen-350B en tareas de parameter-golf, con salidas que se asemejan a Opus4.8. También supera a NEX y GPT-5.5 en la prueba bullshit-bench. El modelo y la versión GGUF están disponibles en Hugging Face, junto con una demo de agente compatible con ZeroGPU.

Importancia 2/3 Supera un benchmark de un laboratorio puntero r/LocalLLaMA Alibaba (Qwen) AI agents Benchmark results Reasoning models

Leer original