Todos los artículos
arxiv arXiv cs.LG · hace 2 h

Los operadores de falsificación post-hoc fallan en mejorar la precisión en modelos pequeños de código

Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión sobre conjuntos de prueba en comparación con Best-of-N en modelos pequeños de código congelados. Aunque algunos operadores reducen el uso de cómputo o recuperan programas correctos, ninguno supera a BoN en precisión, debido a limitaciones sistémicas como muros de cobertura y trampas de consenso. Una recuperación a nivel de expresión (M1) mejora el rendimiento en HumanEval+ en 12 tareas, sin daño ni filtración, y muestra resultados consistentes entre celdas de modelos.

arxiv arXiv cs.LG · hace 2 h

Dificultad PPAD para la optimización min-max de polinomios cuadráticos

El cálculo de puntos estacionarios aproximados de la optimización min-max sobre el hiper-cubo es PPAD-difícil para polinomios cuadráticos. Este resultado se mantiene incluso para polinomios multilineales donde cada variable aparece en a lo sumo tres monomios, con factores de aproximación inversos del polinomio. Como consecuencia, se demuestra que los juegos polimétricos de suma cero entre dos equipos son PPAD-difíciles.

arxiv arXiv cs.LG · hace 2 h

TuneJury: Métrica abierta para la alineación de preferencias en generación musical

TuneJury es un modelo de recompensa por pares a nivel de instancia, abierto, que predice puntuaciones de preferencia musical a partir de indicaciones de texto y clips de audio. Está entrenado con datos diversos de preferencia humana y demuestra una fuerte capacidad de generalización, con calibración de anclas que permite una alineación posterior eficiente para sistemas de generación musical.

arxiv arXiv cs.LG · hace 2 h

ROVE: Aprendizaje por Refuerzo con Intervenciones Humanas para Manipulación de Humanoides

ROVE permite a los modelos Visión-Lenguaje-Acción humanoides aprender comportamientos de manipulación efectivos utilizando intervenciones humanas imperfectas. Combina una tubería de recopilación de datos con humano en el bucle con Estimación Optimista de Valores y supervisión cruzada de encarnaciones para priorizar acciones de alto valor y mejorar la robustez. ROVE supera a los métodos base en tareas de manipulación ricas en contacto del mundo real mediante ciclos iterativos de rollout e intervención.

arxiv arXiv cs.LG · hace 2 h

Elipsoides conformes filtrados para series temporales nativas de grafos

Un nuevo método llamado elipsoides conformes filtrados proporciona conjuntos de predicción para series temporales multivariadas mediante el uso de un filtro de espacio de estados congelado para generar medias y covarianzas predictivas, aplicando luego calibración conforme dividida a puntuaciones de Mahalanobis. El enfoque logra cobertura bajo dependencia mediante contracción en un cociente de ley predictiva observable, con límites teóricos derivados bajo condiciones de proyección gaussiana y observabilidad, y muestra elipsoides más ajustados en benchmarks de tráfico nativos de grafos en comparación con líneas base estáticas y no filtradas.

arxiv arXiv cs.LG · hace 2 h

Una revisión matemática del análisis del espacio de formas en el aprendizaje automático

Esta encuesta presenta un marco matemático para analizar datos geométricos, integrando geometría diferencial, estadística y aprendizaje automático. Describe una tubería unificada para la representación de formas, métricas geodésicas, análisis estadístico y aprendizaje consciente de la geometría, permitiendo el estudio de la variabilidad de las formas y las trayectorias estructurales a través de poblaciones y tiempo. Las aplicaciones abarcan biología, medicina, antropología y visión por computadora, destacando los desafíos en el manejo de la variación geométrica no lineal y desalineada.

media r/LocalLLaMA · hace 2 h

Un paradigma visual ciego para probar la transferencia de habilidades en modelos pequeños sin ajuste fino

El autor propone un experimento visual ciego y entre dominios para determinar si un modelo de lenguaje grande puede comprimir su planificación procedural en un andamio reutilizable que mejore la salida de un modelo pequeño sin ajuste fino. Utilizando Three.js como entorno de prueba, el estudio busca demostrar que esta transferencia de habilidades es genuina y no simplemente sobreajuste al dominio de origen.

arxiv arXiv cs.LG · hace 2 h

ExpRL: Exploración de RL para LLM durante el entrenamiento intermedio

ExpRL introduce un enfoque novedoso de entrenamiento intermedio para LLMs que utiliza datos de preguntas y respuestas escritos por humanos como andamios de recompensa. En lugar de imitar soluciones de referencia, construye rúbricas de calificación específicas para cada problema con el fin de recompensar los pasos intermedios de razonamiento, permitiendo una mejor inicialización para RL con recompensas dispersas y superando a SFT, GRPO con recompensas dispersas y auto-distilación en tareas de razonamiento matemático.

arxiv arXiv cs.LG · hace 2 h

KVEraser: Borrado localizado eficiente del contexto en LLMs

KVEraser permite un borrado localizado eficiente del contexto en modelos de lenguaje grandes reemplazando únicamente los estados del caché KV de un segmento borrado con estados de dirección aprendidos. Logra un rendimiento cercano al de la recomputación completa en tareas dentro del dominio y ofrece un aumento de latencia del 24% frente a un aumento de 17.6x para la recomputación completa, con una aceleración de hasta 3--4x en tareas de QA de documentos largos.

arxiv arXiv cs.LG · hace 2 h

Ataques de puerta trasera en FL-DP: RING explota la privacidad para señales maliciosas

Un nuevo ataque, RING, explota la privacidad diferencial en el aprendizaje federado para ocultar señales de puerta trasera mientras maximiza el impacto. Logra un 90.3% de éxito del ataque contra las defensas más avanzadas, hasta 26.08x sobre los métodos base, y revela una brecha crítica de seguridad en DP-FL debido al enmascaramiento inherente de las actualizaciones maliciosas.

arxiv arXiv cs.LG · hace 2 h

HABC mejora el ajuste fino de RL en VLA con resultados dispersos

El Clonamiento de Comportamiento Jerárquico Ponderado por Ventaja (HABC) mejora el ajuste fino de RL en línea para agentes de visión y lenguaje mediante el uso de cabezales de crítico separados para viabilidad y eficiencia. Combina sus salidas a través de una puerta adaptativa al estado y aplica pesos por transición, mientras que la asignación de crédito consciente de intervenciones evita la fuga de supervisión. En experimentos con robots reales, HABC aumenta las tasas de éxito hasta 92%, 88% y 38% en tres tareas bimanuales, superando los lineamientos base de SFT de 36%, 44% y 12%.

arxiv arXiv cs.LG · hace 2 h

Modelo de Acción Geométrica para el Aprendizaje de Políticas Robóticas

El Modelo de Acción Geométrica (GAM) permite que las políticas robóticas razonen sobre interacciones físicas en 3D mediante la reutilización de un modelo base geométrico preentrenado. GAM divide el GFM para servir como codificador de observaciones y predictor causal del futuro, luego enruta la geometría futura y las acciones predichas a través del mismo backbone, logrando un rendimiento preciso, robusto y eficiente en manipulación en simulación y benchmarks con robots reales.

arxiv arXiv cs.LG · hace 2 h

Estimación exacta del puntaje posterior para problemas inversos lineales

El artículo deriva el puntaje posterior exacto en forma cerrada para problemas inversos gaussianos lineales, permitiendo un muestreo posterior eficiente mediante desruido. Introduce Exact Posterior Score (EPS), un objetivo de entrenamiento que preserva la estructura del preentrenamiento y logra un rendimiento superior en métricas de fidelidad, perceptual y distribucional con menos evaluaciones del desruidor que los métodos basados en gradientes.