media
r/LocalLLaMA
·
hace 1 h
En vivo
Gemma4-26B-A4B & 31B-QAT Uncensored Balanced Released with MTP Speed Boosts
HauhauCS ha lanzado dos nuevas versiones sin censura y equilibradas de los modelos Gemma 4: Gemma4-26B-A4B y Gemma4-31B-QAT. Ambas variantes incorporan cabezales de predicción multi-tokeno (MTP) para habilitar la decodificación especulativa, lo que resulta en mejoras significativas en la velocidad de inferencia. El modelo 26B-A4B logra un aumento de velocidad de aproximadamente el 35%, mientras que el modelo 31B experimenta un incremento del 53%, con una calidad de salida idéntica verificada por el mecanismo de redacción del modelo. Estos lanzamientos utilizan cuantización consciente de QAT, haciendo que Q4_K_M sea el formato óptimo ya que una mayor precisión no ofrece ganancias de calidad para estos modelos específicos. El 26B-A4B es una arquitectura de Mezcla de Expertos con aproximadamente 4 mil millones de parámetros activos por token, mientras que la variante 31B es un modelo denso que ofrece mayor capacidad para usuarios con suficiente VRAM. Ambos modelos incluyen soporte de visión a través de archivos mmproj y mantienen una ventana de contexto de 262K. El autor señala que las pruebas de GenRM resultaron en cero rechazos en 465 prompts, confirmando su naturaleza sin censura.