Todos los artículos
media Interconnects · hace 7 h

Revisión de la receta de post-entrenamiento de Frontier con Finbarr Timbers

El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.

media r/LocalLLaMA · hace 7 h

Por qué DiffusionGemma podría destacar en llamadas a herramientas a pesar de una calidad base inferior

DiffusionGemma utiliza atención bidireccional para permitir la autocorrección durante la generación de tokens, lo que le permite revisar los tokens anteriores en un bloque de 256 tokens. Esta capacidad le otorga una ventaja estructural al generar llamadas a herramientas válidas, ya que puede corregir salidas malformadas que los modelos autoregresivos no pueden corregir una vez comprometidos.

media r/LocalLLaMA · hace 7 h

Resultados de la prueba de rendimiento de cuantización de Qwen3.6 27B

Una prueba que compara las versiones cuantizadas Q8 e IQ3 XXS turbo4 de Qwen3.6 27B muestra que Q8 destaca en seguridad de API y sanitización de entradas, mientras que IQ3 XXS turbo4 tiene un mejor desempeño en gestión de hilos y diseño de código modular. El modelo recomienda combinar ambos enfoques: usar Q8 para la protección inicial al inicio e IQ3 XXS para escrituras atómicas y ciclo de vida de los hilos, formando una base combinada de Fase 1.

media r/LocalLLaMA · hace 7 h

Instrucciones de endurecimiento del razonamiento para Gemma 12b

Se ha desarrollado una instrucción de sistema para reducir el sesgo cognitivo en el razonamiento de Gemma 12b, al exigir un estricto apego a las premisas y la intención explícita del usuario. La instrucción desaconseja recurrir por defecto a interpretaciones 'habituales', 'estándar' o 'típicas', y obliga a reexaminar cualquier suposición de este tipo, mejorando el rendimiento en preguntas trampa sin sobreanalizar las normales.

media r/LocalLLaMA · hace 7 h

Desconfía de las distilaciones de Qwen/Claude: a menudo son peores que el modelo base

Las distilaciones de modelos Qwen y Claude, como Qwen 3.6 distilado con solo 4.000 muestras, rara vez mejoran el rendimiento y a menudo degradan la calidad. Estos modelos pueden exhibir un estilo más 'similar a Opus', pero fallan al transferir capacidad real, con algunos mostrando alucinaciones y tiempos de respuesta más lentos en comparación con los modelos base, según lo demostrado en pruebas y reportes de usuarios.

media Hugging Face Forums · hace 8 h

Usuarios reportan indisponibilidad de la herramienta y del servidor MCP para Step 3.7 Flash en HuggingChat

Un usuario en los foros de Hugging Face informó que el modelo Step 3.7 Flash perdió la capacidad de usar herramientas y conectarse a servidores MCP a partir de esa mañana. El autor expresó gran satisfacción con el rendimiento del modelo, destacando su alta calidad en relación con su bajo consumo de recursos y costo. Enfatizó su deseo de continuar utilizando este modelo específico en lugar de cambiar a alternativas debido a su eficiencia. El usuario preguntó explícitamente si esta pérdida de funcionalidad es permanente y si hay algún paso que pueda tomar para restaurar el acceso. La publicación destaca la preocupación de la comunidad por la interrupción repentina de las capacidades de herramientas para un modelo popular y rentable.