Todos los artículos
media Hugging Face Forums · hace 10 h

Un usuario informa que el artículo está indexado pero ausente en los Artículos del Día

Un usuario en el foro de Hugging Face informa que su artículo de arXiv, "Agent-as-a-Router: Agentic Model Routing for Coding Tasks", fue indexado y reclamado con éxito, pero nunca apareció en la página principal de Daily Papers. A pesar de recibir votos positivos de la comunidad y vincular un conjunto de datos correspondiente, el artículo no ha sido destacado después de varios días.

media Interconnects · hace 12 h

Revisión de la receta de post-entrenamiento de Frontier con Finbarr Timbers

El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.

media r/LocalLLaMA · hace 12 h

Por qué DiffusionGemma podría destacar en llamadas a herramientas a pesar de una calidad base inferior

DiffusionGemma utiliza atención bidireccional para permitir la autocorrección durante la generación de tokens, lo que le permite revisar los tokens anteriores en un bloque de 256 tokens. Esta capacidad le otorga una ventaja estructural al generar llamadas a herramientas válidas, ya que puede corregir salidas malformadas que los modelos autoregresivos no pueden corregir una vez comprometidos.