Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 74

arxiv arXiv cs.LG · hace 2 h

Taxonomía unificada de origen causal de los cambios de distribución en el aprendizaje por refuerzo

Este artículo propone una taxonomía unificada de origen causal para los cambios de distribución en el aprendizaje por refuerzo, vinculando la generalización ID/OOD con entornos no estacionarios. Descompone la interacción agente-entorno utilizando un marco POMDP, identificando cambios internos impulsados por el agente y externos impulsados por el entorno, con tipos explícitos, implícitos e híbridos definidos por el límite de tiempo desplazado. El trabajo introduce un marco de evaluación para medir el impacto del cambio a través de métricas de degradación y recuperación del rendimiento, permitiendo un análisis sistemático de la robustez del RL.

arxiv arXiv cs.LG · hace 2 h

Propiedades clave para el razonamiento efectivo del intérprete de código

Un estudio identifica propiedades extrínsecas (tokens cruciales) e intrínsecas (comportamientos cognitivos) que mejoran el razonamiento del intérprete de código en modelos de lenguaje grandes. Los modelos con razonamiento más fuerte muestran una mayor prevalencia de verificación, retroceso y encadenamiento hacia atrás, con estas propiedades mejorando el rendimiento durante la inferencia y el entrenamiento, reduciendo el sobre-pensamiento y aumentando la eficiencia de los tokens.

arxiv arXiv cs.LG · hace 2 h

CrossMaps: Mapeo semántico consciente de la confianza para la navegación de rovers

CrossMaps es una canalización de mapeo semántico en tiempo real y consciente de la confianza que utiliza datos RGB-D para crear mapas consultables por lenguaje. Integra incrustaciones CLIP multi-escala con una arquitectura de doble memoria—Memoria a Corto Plazo y Memoria a Largo Plazo—para agregar observaciones visuales y promover celdas coherentes y confiables como puntos de referencia semánticos persistentes. El sistema permite consultas en lenguaje natural para guiar la navegación del rover mediante mapas de calor semánticos.

arxiv arXiv cs.LG · hace 2 h

CircuitLasso: Aprendizaje de circuitos escalable para la interpretabilidad de LLM

CircuitLasso permite el aprendizaje de circuitos escalable en modelos de lenguaje grandes mediante el uso de regresión lineal dispersa. Recupera circuitos con precisión estructural comparable a los métodos más avanzados, pero con un costo computacional significativamente menor, y demuestra una propagación semántica interpretable por humanos a través de los componentes del modelo. Los circuitos aprendidos logran un rendimiento comparable en una tarea de generalización de dominio con un costo reducido.

arxiv arXiv cs.LG · hace 2 h

Una prueba de dos muestras no paramétrica usando PReLU-IPM

El estudio introduce PReLU-IPM, una nueva métrica de probabilidad integral basada en un discriminador de red neuronal con un solo nodo. La prueba PReLU-TST resultante es no paramétrica, consistente y asintóticamente equivalente a las pruebas basadas en IPM estándar, mostrando mayor potencia o rendimiento competitivo en conjuntos de datos simulados y reales.

arxiv arXiv cs.LG · hace 2 h

Mapeo del espacio latente para coordenadas moleculares interpretables a partir de señales de nanoporo

Un codificador contrastivo entrenado con señales simuladas mapea las señales de códigos de barras de ADN en un sistema de coordenadas moleculares interpretable. El método permite la identificación de moléculas con un solo paso, reduciendo el costo computacional en tres órdenes de magnitud y permitiendo la agrupación de datos entre dispositivos mientras permanece invariante a las condiciones de adquisición.

arxiv arXiv cs.LG · hace 2 h

Marco causal para auditar divulgaciones de datos sintéticos

Un marco de auditoria agnóstico al modelo detecta y distingue entre divulgaciones reales y fantasma en datos sintéticos. Utiliza únicamente las salidas sintéticas y un conjunto de control retenido para realizar pruebas estadísticas, ofreciendo límites más estrictos de fuga de privacidad que los métodos anteriores sin requerir acceso al modelo ni entrenamiento adicional.

arxiv arXiv cs.LG · hace 2 h

VAE VAE convolucional híbrido para superficies de volatilidad cripto

Un autoencoder variacional convolucional entrenado en 6,034 superficies de opciones de Binance para BTC y ETH logra un RMSE de 0.94-1.56 puntos de volatilidad con una máscara del 10-50%. El predictor híbrido reduce el error de 7.00 a 0.83 puntos de volatilidad con una máscara del 50%, superando al re-ajuste paramétrico en patrones de huecos estructurados y detectando eventos anómalos del mercado sin supervisión.

media Hugging Face Forums · hace 2 h

Usuario busca colaboradores para un nuevo proyecto de conjunto de datos ML de Sudoku

Un usuario en los foros de Hugging Face busca colaboradores para construir un proyecto de aprendizaje automático y aprendizaje profundo centrado en Sudokus. El autor ha comenzado a crear una base de datos desde cero y tiene como objetivo establecer una organización independiente para esta causa.

arxiv arXiv cs.LG · hace 2 h

Las redes neuronales de tamaño fijo logran aproximación de Sobolev arbitraria

Una nueva función de activación permite que las redes neuronales de tamaño fijo aproximen cualquier función en los espacios de Sobolev $W^{s,\infty}((a,b)^d)$ con precisión arbitraria en la norma $W^{s-1,\infty}$. Los resultados utilizan activaciones elementales como EUAF y DUAF$_\infty$, con cotas explícitas de ancho y profundidad, y se extienden a variantes sigmoideas $\widetilde{\mathrm{DUAF}}_n$ que preservan la precisión para todo $1\leq s\leq n$.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje de Residuos de Error de Tarea para Malabares con Cinco Pelotas en Robots Reales

Un enfoque de aprendizaje residual utilizando supervisión de error de tarea direccional logra malabares estables con cinco pelotas en robots reales, convergiendo desde el segundo intento. El sistema supera los tiempos de práctica humana y se basa tanto en retroalimentación direccional como en un prior informativo, demostrando que la actualización newtoniana con Jacobiano fijo es la más confiable.

arxiv arXiv cs.LG · hace 2 h

SPaiK: Aprendizaje de Kernel Pareado Escalable con el Truco Vec Estocástico

SPaiK introduce un método escalable de aprendizaje de kernel para configuraciones pareadas utilizando el truco vec generalizado estocástico (sGVT). Esta innovación reduce las demandas computacionales y de memoria, permitiendo un entrenamiento eficiente en conjuntos de datos grandes y haciendo factible el aprendizaje de kernel pareado para tamaños de datos previamente intratables.

arxiv arXiv cs.LG · hace 2 h

El afinado probabilístico desacopla la inferencia de las actualizaciones de estado

Un nuevo método desacopla la inferencia de ML de la persistencia del estado en sistemas de streaming mediante afinado probabilístico. Activa selectivamente actualizaciones de estado duraderas basándose en la informatividad de los eventos, reduciendo la sobrecarga de la ruta de persistencia hasta un 90% sin comprometer la utilidad downstream ni introducir errores sistémicos.

arxiv arXiv cs.LG · hace 2 h

Dynestyx: Programación probabilística para sistemas dinámicos

Dynestyx es una biblioteca de programación probabilística que proporciona soporte de primera clase para modelos de espacio de estado. Permite a los usuarios especificar priors arbitrarios para sistemas dinámicos de tiempo discreto o continuo, realizar inferencia en datos de efectos mixtos y obtener estimaciones de estado y parámetros con cuantificación de incertidumbre fundamentada.

arxiv arXiv cs.LG · hace 2 h

Fingerprinting del comportamiento de agentes mediante trayectorias procedimentales

Presentamos un método para identificar agentes por sus huellas dactilares de comportamiento procedimental, logrando una precisión del 85.7% al atribuir trayectorias no vistas a los agentes correctos. Utilizando ProcGrep, analizamos el comportamiento de agentes de codificación en SWE-Bench, descubriendo que los modelos de períodos de lanzamiento similares o destilados entre sí exhiben una similitud de comportamiento más cercana, con una divergencia Jensen-Shannon de 0.25.

arxiv arXiv cs.LG · hace 2 h

La torsión analítica y la brecha espectral capturan el rendimiento del Laplaciano persistente

Una representación espectral compacta que utiliza números de Betti, brecha espectral y torsión analítica condensa los Laplacianos persistentes en tres invariantes fundamentados matemáticamente. Este enfoque captura señales predictivas esenciales del espectro completo, supera al mismo en algunos casos y reduce la sobrecarga computacional en conjuntos de datos como MNIST, QM-3D y SKEMPI WT.

arxiv arXiv cs.LG · hace 2 h

Benchmark multicentro para el diagnóstico de enfermedades abdominales a partir de TC sin contraste

Un nuevo benchmark multicentro permite el diagnóstico de enfermedades abdominales y la generación de informes a partir de TC sin contraste, sintetizando hallazgos con contraste. El conjunto de datos incluye estudios NCCT-CECT emparejados e informes de dos centros, mostrando que NCCT alcanza AUCs promedio multiórganos de 69.1% internamente y 63.1% externamente. El benchmark y el código se han liberado públicamente para apoyar la investigación en flujos de trabajo de imagen abdominal más seguros y sin contraste.

arxiv arXiv cs.LG · hace 2 h

PACT: Deliberación de modelos de lenguaje pequeños para aprendizaje por refuerzo reactivo

PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan del SLM se ejecuta directamente si se verifica en simulación, omitiendo la política de RL sin necesidad de reentrenamiento. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.

arxiv arXiv cs.LG · hace 2 h

Los operadores de falsificación post-hoc fallan en mejorar la precisión en modelos pequeños de código

Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión sobre conjuntos de prueba en comparación con Best-of-N en modelos pequeños de código congelados. Aunque algunos operadores reducen el uso de cómputo o recuperan programas correctos, ninguno supera a BoN en precisión, debido a limitaciones sistémicas como muros de cobertura y trampas de consenso. Una recuperación a nivel de expresión (M1) mejora el rendimiento en HumanEval+ en 12 tareas, sin daño ni filtración, y muestra resultados consistentes entre celdas de modelos.

arxiv arXiv cs.LG · hace 2 h

Dificultad PPAD para la optimización min-max de polinomios cuadráticos

El cálculo de puntos estacionarios aproximados de la optimización min-max sobre el hiper-cubo es PPAD-difícil para polinomios cuadráticos. Este resultado se mantiene incluso para polinomios multilineales donde cada variable aparece en a lo sumo tres monomios, con factores de aproximación inversos del polinomio. Como consecuencia, se demuestra que los juegos polimétricos de suma cero entre dos equipos son PPAD-difíciles.