Training methods

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.

media Interconnects · hace 7 h

Revisión de la receta de post-entrenamiento de Frontier con Finbarr Timbers

El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.

media r/LocalLLaMA · hace 12 h

Agrupar GPUs para entrenar un modelo comunitario

Un usuario de Reddit pregunta si alguien está agrupando con éxito GPUs para entrenar un modelo comunitario, destacando desafíos como la latencia y el envenenamiento de pesos. La publicación cuestiona si los proyectos actuales de computación voluntaria distribuida han logrado con éxito el entrenamiento de modelos comunitarios.

arxiv arXiv cs.CL · hace 14 h

CKA de Diferencia Contrastiva Revela Alineación Específica de Conceptos a Través de Arquitecturas de LLM

Un diagnóstico sin entrenamiento, CKA de diferencia contrastiva (CKA_Delta), identifica alineación estructural específica de conceptos a través de arquitecturas de modelos de lenguaje. Detecta convergencia geométrica y transferencia funcional en seis dominios conceptuales, incluyendo tareas no instruccionales, con discriminación significativa donde el CKA estándar falla. Los resultados sugieren que la universalidad puede fortalecerse con la escala del modelo, aunque se necesita más validación.

arxiv arXiv cs.CL · hace 14 h

Propiedades clave para el razonamiento efectivo del intérprete de código

Un estudio identifica propiedades extrínsecas (tokens cruciales) e intrínsecas (comportamientos cognitivos) que mejoran el razonamiento del intérprete de código en modelos de lenguaje grandes. Los modelos de razonamiento más fuertes muestran una mayor prevalencia de verificación, retroceso y encadenamiento hacia atrás, con estas propiedades mejorando el rendimiento durante la inferencia y el entrenamiento, reduciendo el sobre-pensamiento y aumentando la eficiencia de los tokens.

arxiv arXiv cs.CL · hace 14 h

DeepRubric: RL eficiente para agentes de investigación profunda

DeepRubric introduce un marco de construcción de datos que genera pares consulta-rúbrica definiendo primero objetivos de evaluación verificables mediante un árbol de evidencia. Genera 9K ejemplos de supervisión y entrena un modelo de 8B con GRPO, logrando un rendimiento comparable al de los modelos más avanzados utilizando 13 veces menos horas de GPU para RL.

media Hugging Face Forums · hace 16 h

Niodoo: Un entorno de ejecución local para la dirección del estado oculto de LLM congelados

Jason Van Pham ha lanzado Niodoo, un entorno de ejecución local diseñado para dirigir modelos de lenguaje grandes congelados a través de sus estados ocultos. El proyecto tiene como objetivo corregir errores en el último paso inyectando ruido o "fuerzas físicas" durante la inferencia para romper bucles de tokens. Este enfoque permite que los modelos más pequeños mejoren su rendimiento sin ajuste fino, dirigiéndose a casos específicos de fallo como la prueba del benchmark de fresas de Llama. El sistema genera sus propias etiquetas de telemetría y utiliza análisis TDA para monitorear los estados internos del modelo en busca de comportamientos de bucle. Van Pham desarrolló esta herramienta de manera orgánica a través de meses de investigación autodirigida y pruebas de penetración (red-teaming), enfatizando resultados reproducibles a partir de hashes fijados. El código está disponible en GitHub bajo el repositorio Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · hace 16 h

Consulta sobre formato de prompt para entrenar Unsloth/Phi-3.5-mini-instruct

Un usuario busca consejos sobre la estrategia óptima de formateo de prompts para entrenar el modelo Phi-3.5-mini-instruct utilizando Unsloth. La consulta contrasta mantener un formato de texto personalizado frente a utilizar una plantilla de chat estándar para la preparación del conjunto de datos. La implementación actual emplea una función que estructura los datos en secciones '### Input:' y '### Output:', añadiendo un token de fin de texto. Este enfoque procesa campos de entrada y salida codificados en JSON derivados de un objeto Dataset de Hugging Face. El ejemplo proporcionado ilustra una estructura compleja que involucra información financiera, nombres de comerciantes, fechas y totales de transacciones. El usuario tiene la intención de desplegar el modelo entrenado a través de una API personalizada y solicita orientación sobre si debe conservar este formato o cambiar a una plantilla de chat.

media Hugging Face Forums · hace 17 h

Comparación de depuración a pequeña escala de OLMo-core con injerto Engram

Una comparación de entrenamiento de 200 pasos entre un modelo base OLMo3 de 600M y una versión con un injerto Engram al estilo DeepSeek muestra una pérdida de entrenamiento y evaluación menor, una estabilización más rápida de la norma del gradiente y un comportamiento de aprendizaje temprano mejorado. El injerto Engram, inyectado en las capas 1 y 5, aumenta los parámetros entrenables a ~1.7B pero mantiene solo un aumento de 40k en los parámetros activos por token, lo que indica un uso eficiente de la memoria.