Tmax-27B Agente Terminal para GPUs Pequeñas con Entrenamiento DPPO

Tmax-27B es un agente terminal basado en Qwen3.6-27B, entrenado con DPPO (RL), logrando 43% en Terminal Bench 2.0 y 69% en TB Lite. Para ejecutarse en GPUs de consumo, se cuantiza utilizando modelos GGUF calibrados por matriz de importancia desde 2 hasta 5 bits por peso, con una cabeza MTP injertada que permite descodificación especulativa. IQ2_XS a 8.5 GiB alcanza una tasa de éxito del 70% en tareas de codificación agéntica, superando la cuantización simple y demostrando generación estable de llamadas a herramientas.

Benchmarks