Todos los artículos
arxiv arXiv cs.LG · hace 6 h

Reflexiones sobre la programación: Aprender el orden del pensamiento en modelos de lenguaje de difusión

Los investigadores proponen Self-Aware Scheduling (SAS), un método que aprende un orden óptimo de desenmascaramiento de tokens para modelos de lenguaje de difusión enmascarados con el fin de mejorar la calidad de la generación. Al derivar una cota superior manejable sobre la discrepancia de la decodificación secuencial, el enfoque plantea la selección del orden como un problema de optimización de políticas utilizando Group Relative Policy Optimization.

arxiv arXiv cs.LG · hace 7 h

SVD-Surgeon: Cirugía óptima de valores singulares para la compresión de modelos de lenguaje grandes

Los investigadores han presentado SVD-Surgeon, un método sin entrenamiento que aplica el marco Optimal Brain Surgeon a la descomposición en valores singulares para comprimir modelos de lenguaje grandes. Este enfoque calcula actualizaciones de forma cerrada para los valores singulares retenidos con el fin de compensar los errores de truncamiento y determina qué valores deben podarse basándose en su relevancia.

arxiv arXiv cs.LG · hace 7 h

El aprendizaje por contraste consciente del paciente preserva la estructura por paciente en las representaciones de intervalo RR

El artículo aborda el desafío del aprendizaje de representaciones por contraste en señales fisiológicas donde las líneas base específicas del sujeto interfieren con los objetivos a nivel de clase, provocando que los modelos pierdan la variación individual necesaria para la generalización. Los autores proponen un objetivo por contraste consciente del paciente para la detección de Fibrilación Auricular Paroxística que forma pares positivos únicamente a partir de segmentos del mismo paciente para preservar las líneas base del ritmo sinusal mientras separa las clases.

media Hugging Face Forums · hace 7 h

HoLo-ToLk: Modelos de habla sin tokenizador en sustrato HSL de 0 parámetros

El autor presenta HoLo-ToLk, un proyecto de investigación que construye modelos de habla a texto (STT) y texto a habla (TTS) utilizando el sustrato de bytes HSL de cero parámetros sin tokenizadores ni incrustaciones de entrada aprendidas. El trabajo demuestra que los bytes HSL en bruto pueden servir como una señal viable para el procesamiento de audio cuando se combinan con modificaciones arquitectónicas específicas.

lab OpenAI News · hace 7 h

HP Inc. lanza una alianza estratégica con OpenAI en la frontera

HP Inc. está ampliando su alianza estratégica con OpenAI tras pilotos exitosos, desplegando IA en experiencias de clientes, productividad de empleados y desarrollo de software. La empresa utiliza la plataforma Frontier de OpenAI como un modelo operativo unificado para gobernar el contexto, los permisos y la evaluación a medida que avanza desde casos de uso experimentales hacia producción en toda la empresa.

arxiv arXiv cs.LG · hace 8 h

Resolver para el hiperparámetro, omitir la búsqueda: Leyes de escala óptimas de Kolmogorov para regresión por splines

El artículo presenta KORE, un método que determina la resolución óptima de la regresión por splines en forma cerrada en lugar de mediante una búsqueda exhaustiva de hiperparámetros. Al aprovechar la teoría clásica de aproximación y la identidad PRESS, equilibra analíticamente las escalas de sesgo y ruido para lograr una precisión comparable a los barridos de cuadrícula con significativamente menos cómputo.

arxiv arXiv cs.LG · hace 8 h

Las Redes de Kolmogorov-Arnold Polinomiales Aprenden la Dinámica del Juego de la Vida

Este estudio demuestra que las redes neuronales pueden aprender de manera confiable la dinámica del Juego de la Vida de Conway utilizando arquitecturas mínimas mediante el empleo de sesgos inductivos específicos en lugar de depender de procesos de búsqueda a gran escala. Los autores muestran que las variantes de red con funciones de activación alternativas superan significativamente a las Unidades Lineales Rectificadas estándar, particularmente a través del uso de activaciones polinomiales de segundo grado.

arxiv arXiv cs.LG · hace 8 h

Cuantificación del acuerdo entre influencia de datos y similitud de datos en LLMs

Este estudio cuantifica el acuerdo entre las medidas de similitud de datos e influencia de datos utilizadas para rastrear las salidas de los LLMs hasta los datos de entrenamiento, revelando una superposición significativa con una asimetría donde la influencia de datos clasifica más consistentemente los documentos más similares. Los experimentos en modelos como OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B y GPT2 demuestran que esta asimetría permite una compensación favorable entre costo y precisión al usar la influencia de datos para refinar los resultados más económicos de la similitud de datos.

arxiv arXiv cs.LG · hace 8 h

Escalando la conectividad de modos lineales y la fusión en transformadores preentrenados de miles de millones de parámetros

Los investigadores proponen un marco escalable para fusionar transformadores de miles de millones de parámetros entrenados independientemente utilizando conectividad de modos lineales, abordando los límites de escalabilidad en métodos existentes. El enfoque emplea transformaciones de pesos que preservan la función y un procedimiento de aprendizaje dual donde ambos modelos optimizan conjuntamente hacia una trayectoria de interpolación lineal compartida.

arxiv arXiv cs.LG · hace 8 h

Descubrimiento causal en la era de los agentes

El artículo argumenta en contra del uso de modelos de lenguaje grandes para inferir estructuras causales, advirtiendo que tales enfoques corren el riesgo de confundir asociaciones textuales con evidencia causal genuina. En su lugar, propone que los agentes solo deben asistir el flujo de trabajo inspeccionando datos y explicando supuestos, mientras se mantiene que las afirmaciones causales estén fundamentadas en algoritmos formales y diagnósticos.