Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 97

Las redes neuronales de tamaño fijo logran aproximación de Sobolev arbitraria

Una nueva función de activación permite que las redes neuronales de tamaño fijo aproximen cualquier función en los espacios de Sobolev $W^{s,\infty}((a,b)^d)$ con precisión arbitraria en la norma $W^{s-1,\infty}$. Los resultados utilizan activaciones elementales como EUAF y DUAF$_\infty$, con cotas explícitas de ancho y profundidad, y se extienden a variantes sigmoideas $\widetilde{\mathrm{DUAF}}_n$ que preservan la precisión para todo $1\leq s\leq n$.

arxiv arXiv cs.LG · hace 11 h

Aprendizaje de Residuos de Error de Tarea para Malabares con Cinco Pelotas en Robots Reales

Un enfoque de aprendizaje residual utilizando supervisión de error de tarea direccional logra malabares estables con cinco pelotas en robots reales, convergiendo desde el segundo intento. El sistema supera los tiempos de práctica humana y se basa tanto en retroalimentación direccional como en un prior informativo, demostrando que la actualización newtoniana con Jacobiano fijo es la más confiable.

arxiv arXiv cs.LG · hace 11 h

SPaiK: Aprendizaje de Kernel Pareado Escalable con el Truco Vec Estocástico

SPaiK introduce un método escalable de aprendizaje de kernel para configuraciones pareadas utilizando el truco vec generalizado estocástico (sGVT). Esta innovación reduce las demandas computacionales y de memoria, permitiendo un entrenamiento eficiente en conjuntos de datos grandes y haciendo factible el aprendizaje de kernel pareado para tamaños de datos previamente intratables.

arxiv arXiv cs.LG · hace 11 h

El afinado probabilístico desacopla la inferencia de las actualizaciones de estado

Un nuevo método desacopla la inferencia de ML de la persistencia del estado en sistemas de streaming mediante afinado probabilístico. Activa selectivamente actualizaciones de estado duraderas basándose en la informatividad de los eventos, reduciendo la sobrecarga de la ruta de persistencia hasta un 90% sin comprometer la utilidad downstream ni introducir errores sistémicos.

arxiv arXiv cs.LG · hace 11 h

Dynestyx: Programación probabilística para sistemas dinámicos

Dynestyx es una biblioteca de programación probabilística que proporciona soporte de primera clase para modelos de espacio de estado. Permite a los usuarios especificar priors arbitrarios para sistemas dinámicos de tiempo discreto o continuo, realizar inferencia en datos de efectos mixtos y obtener estimaciones de estado y parámetros con cuantificación de incertidumbre fundamentada.

arxiv arXiv cs.LG · hace 11 h

Fingerprinting del comportamiento de agentes mediante trayectorias procedimentales

Presentamos un método para identificar agentes por sus huellas dactilares de comportamiento procedimental, logrando una precisión del 85.7% al atribuir trayectorias no vistas a los agentes correctos. Utilizando ProcGrep, analizamos el comportamiento de agentes de codificación en SWE-Bench, descubriendo que los modelos de períodos de lanzamiento similares o destilados entre sí exhiben una similitud de comportamiento más cercana, con una divergencia Jensen-Shannon de 0.25.

arxiv arXiv cs.LG · hace 11 h

La torsión analítica y la brecha espectral capturan el rendimiento del Laplaciano persistente

Una representación espectral compacta que utiliza números de Betti, brecha espectral y torsión analítica condensa los Laplacianos persistentes en tres invariantes fundamentados matemáticamente. Este enfoque captura señales predictivas esenciales del espectro completo, supera al mismo en algunos casos y reduce la sobrecarga computacional en conjuntos de datos como MNIST, QM-3D y SKEMPI WT.

arxiv arXiv cs.LG · hace 11 h

Benchmark multicentro para el diagnóstico de enfermedades abdominales a partir de TC sin contraste

Un nuevo benchmark multicentro permite el diagnóstico de enfermedades abdominales y la generación de informes a partir de TC sin contraste, sintetizando hallazgos con contraste. El conjunto de datos incluye estudios NCCT-CECT emparejados e informes de dos centros, mostrando que NCCT alcanza AUCs promedio multiórganos de 69.1% internamente y 63.1% externamente. El benchmark y el código se han liberado públicamente para apoyar la investigación en flujos de trabajo de imagen abdominal más seguros y sin contraste.

arxiv arXiv cs.LG · hace 11 h

PACT: Deliberación de modelos de lenguaje pequeños para aprendizaje por refuerzo reactivo

PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan del SLM se ejecuta directamente si se verifica en simulación, omitiendo la política de RL sin necesidad de reentrenamiento. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.

arxiv arXiv cs.LG · hace 11 h

Los operadores de falsificación post-hoc fallan en mejorar la precisión en modelos pequeños de código

Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión sobre conjuntos de prueba en comparación con Best-of-N en modelos pequeños de código congelados. Aunque algunos operadores reducen el uso de cómputo o recuperan programas correctos, ninguno supera a BoN en precisión, debido a limitaciones sistémicas como muros de cobertura y trampas de consenso. Una recuperación a nivel de expresión (M1) mejora el rendimiento en HumanEval+ en 12 tareas, sin daño ni filtración, y muestra resultados consistentes entre celdas de modelos.

arxiv arXiv cs.LG · hace 11 h

Dificultad PPAD para la optimización min-max de polinomios cuadráticos

El cálculo de puntos estacionarios aproximados de la optimización min-max sobre el hiper-cubo es PPAD-difícil para polinomios cuadráticos. Este resultado se mantiene incluso para polinomios multilineales donde cada variable aparece en a lo sumo tres monomios, con factores de aproximación inversos del polinomio. Como consecuencia, se demuestra que los juegos polimétricos de suma cero entre dos equipos son PPAD-difíciles.

arxiv arXiv cs.LG · hace 11 h

TuneJury: Métrica abierta para la alineación de preferencias en generación musical

TuneJury es un modelo de recompensa por pares a nivel de instancia, abierto, que predice puntuaciones de preferencia musical a partir de indicaciones de texto y clips de audio. Está entrenado con datos diversos de preferencia humana y demuestra una fuerte capacidad de generalización, con calibración de anclas que permite una alineación posterior eficiente para sistemas de generación musical.

arxiv arXiv cs.LG · hace 11 h

Búsqueda de Interacción de Exposición Neural para HTE Interpretable

NEXIS identifica efectos de tratamiento heterogéneos causales descubriendo mantas de Markov en datos previos al tratamiento. Aprovecha mediciones multimodales y multivista, junto con representaciones escalables con mínima intervención humana, permitiendo insights interpretables y accionables sobre políticas a partir de experimentos controlados.

arxiv arXiv cs.LG · hace 11 h

ROVE: Aprendizaje por Refuerzo con Intervenciones Humanas para Manipulación de Humanoides

ROVE permite a los modelos Visión-Lenguaje-Acción humanoides aprender comportamientos de manipulación efectivos utilizando intervenciones humanas imperfectas. Combina una tubería de recopilación de datos con humano en el bucle con Estimación Optimista de Valores y supervisión cruzada de encarnaciones para priorizar acciones de alto valor y mejorar la robustez. ROVE supera a los métodos base en tareas de manipulación ricas en contacto del mundo real mediante ciclos iterativos de rollout e intervención.

arxiv arXiv cs.LG · hace 11 h

Las conexiones residuales mitigan problemas de gradiente en redes profundas

Un estudio utiliza la teoría ergódica multiplicativa para analizar los gradientes explosivos y desvanecientes en redes neuronales profundas. Muestra que las conexiones residuales afectan el espectro de Liapunov, tal como lo caracterizaron Furstenberg y Kifer, estabilizando así el flujo del gradiente durante el entrenamiento.

arxiv arXiv cs.LG · hace 11 h

Elipsoides conformes filtrados para series temporales nativas de grafos

Un nuevo método llamado elipsoides conformes filtrados proporciona conjuntos de predicción para series temporales multivariadas mediante el uso de un filtro de espacio de estados congelado para generar medias y covarianzas predictivas, aplicando luego calibración conforme dividida a puntuaciones de Mahalanobis. El enfoque logra cobertura bajo dependencia mediante contracción en un cociente de ley predictiva observable, con límites teóricos derivados bajo condiciones de proyección gaussiana y observabilidad, y muestra elipsoides más ajustados en benchmarks de tráfico nativos de grafos en comparación con líneas base estáticas y no filtradas.

arxiv arXiv cs.LG · hace 11 h

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para estabilizar los prefijos de prompt y gestionar segmentos de contexto de manera eficiente.

arxiv arXiv cs.LG · hace 11 h

Una revisión matemática del análisis del espacio de formas en el aprendizaje automático

Esta encuesta presenta un marco matemático para analizar datos geométricos, integrando geometría diferencial, estadística y aprendizaje automático. Describe una tubería unificada para la representación de formas, métricas geodésicas, análisis estadístico y aprendizaje consciente de la geometría, permitiendo el estudio de la variabilidad de las formas y las trayectorias estructurales a través de poblaciones y tiempo. Las aplicaciones abarcan biología, medicina, antropología y visión por computadora, destacando los desafíos en el manejo de la variación geométrica no lineal y desalineada.

media r/LocalLLaMA · hace 11 h

Un paradigma visual ciego para probar la transferencia de habilidades en modelos pequeños sin ajuste fino

El autor propone un experimento visual ciego y entre dominios para determinar si un modelo de lenguaje grande puede comprimir su planificación procedural en un andamio reutilizable que mejore la salida de un modelo pequeño sin ajuste fino. Utilizando Three.js como entorno de prueba, el estudio busca demostrar que esta transferencia de habilidades es genuina y no simplemente sobreajuste al dominio de origen.

arxiv arXiv cs.LG · hace 12 h

ExpRL: Exploración de RL para LLM durante el entrenamiento intermedio

ExpRL introduce un enfoque novedoso de entrenamiento intermedio para LLMs que utiliza datos de preguntas y respuestas escritos por humanos como andamios de recompensa. En lugar de imitar soluciones de referencia, construye rúbricas de calificación específicas para cada problema con el fin de recompensar los pasos intermedios de razonamiento, permitiendo una mejor inicialización para RL con recompensas dispersas y superando a SFT, GRPO con recompensas dispersas y auto-distilación en tareas de razonamiento matemático.