Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 83

arxiv arXiv cs.LG · hace 2 h

Generalización composicional en el razonamiento de modelos de lenguaje

Un modelo de selección latente jerárquico muestra que el ajuste fino supervisado y el aprendizaje por refuerzo trabajan juntos para habilitar la generalización composicional en modelos de lenguaje. El SFT proporciona materiales de módulos crudos, mientras que el RL identifica y recombina módulos atómicos a partir de trazas compuestas para resolver nuevos problemas. Entrenar en trazas compuestas conduce a una generalización más fuerte que el entrenamiento de módulos aislados, y se encuentra un protocolo efectivo donde el SFT asegura la cobertura de módulos y el RL impulsa la exploración de composiciones novedosas.

arxiv arXiv cs.LG · hace 2 h

S4oP: Poda a nivel de operador para el despliegue eficiente de SSM

S4oP introduce un método de poda incremental a nivel de operador para los modelos S4 y S4D, reduciendo el costo de inferencia hasta en un 70% mientras se mantiene el rendimiento predictivo. El enfoque combina enmascaramiento estructurado con ajuste fino y rastrea conjuntamente la precisión y la latencia, permitiendo el despliegue eficiente de SSMs en dispositivos con recursos limitados.

arxiv arXiv cs.LG · hace 2 h

OmniPlan: Marco adaptativo para la planificación de redes oportuna y casi óptima

OmniPlan introduce un marco adaptativo que convierte las intenciones del usuario en lenguaje natural en preferencias cuantificables utilizando un modelo de lenguaje grande. Selecciona dinámicamente entre expertos de programación entera mixta, heurísticas y aprendizaje por refuerzo profundo para lograr tanto la oportunidad como la casi-optimalidad en la planificación de redes. Las evaluaciones en cargas de trabajo de aprendizaje automático distribuido muestran una reducción de latencia de hasta el 97,8% y un consumo de recursos un 11,5% menor.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje por Refuerzo Profundo para Conjuntos Mínimos de Forzamiento Cero

Este artículo propone SD-ZFS, un marco de aprendizaje por refuerzo profundo adaptado de S2V-DQN, para resolver el problema NP-duro del conjunto mínimo de forzamiento cero en grafos no dirigidos. El marco demuestra un rendimiento fuerte en comparación con las soluciones óptimas y las heurísticas voraces, mostrando una generalización efectiva, escalabilidad y transferencia a través de diversas estructuras de grafos.

arxiv arXiv cs.LG · hace 2 h

Aprendiendo políticas óptimas de Pareto justas en aprendizaje por refuerzo multiobjetivo

El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas y propone tres algoritmos que incorporan dinámicas de política no estacionarias y estocásticas. Los resultados empíricos muestran que estos métodos aprenden eficazmente políticas justas adaptables a diferentes preferencias de usuarios.

arxiv arXiv cs.LG · hace 2 h

Ternary Mamba: QAT eficiente de SSMs desde checkpoints preentrenados

Ternary Mamba logra una compresión de 3.61x de Mamba-2, pasando de 2,687 a 744 MB mediante entrenamiento con conciencia de cuantificación agrupada y destilación de conocimiento. Alcanza una precisión zero-shot del 48.1% en 7 tareas con 102M tokens, igualando a Bi-Mamba dentro de 0.9 puntos porcentuales, mientras evita el costoso entrenamiento desde cero.

arxiv arXiv cs.LG · hace 2 h

Las inyecciones de triple llave en Handlebars explotan los delimitadores de rol estructural

La interpolación de triple llave de Handlebars no protege contra la inyección de rol estructural, ya que el escape de HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y de hash de Markdown, lo que permite a los atacantes secuestrar el comportamiento del modelo. El escape predeterminado no proporciona protección para la mayoría de los esquemas de delimitador de rol y no puede reemplazar una clara separación de instrucciones y datos.

arxiv arXiv cs.LG · hace 2 h

Flujo de trabajo de ML embebido para dispositivos edge de microcontrolador

Este artículo describe un flujo de trabajo orientado a sistemas para el aprendizaje automático embebido en dispositivos de clase microcontrolador. Detalla decisiones clave de ingeniería como la muestreo de datos, extracción de características, validación del desbalance de clases, co-diseño modelo-runtime y despliegue en streaming, utilizando el reconocimiento de movimiento inercial y la detección de palabras clave como estudios de caso. El trabajo proporciona reglas prácticas de diseño para una inferencia robusta en dispositivo, incluyendo curación de datos, cuantización, umbralización, programación y monitoreo en campo.

arxiv arXiv cs.LG · hace 2 h

La resistencia de la memoria flash como capital depreciado en la memoria del robot

La memoria flash de un robot se degrada con cada escritura, formando un activo no renovable. Un modelo de precios consciente del desgaste utiliza un precio sombra $η$ para guiar la colocación de la memoria entre RAM, NVM y la nube, con el enrutamiento óptimo dependiendo de si el valor de la tarea aumenta con la persistencia de la memoria. El signo de la asociación valor-escritura $χ$ varía según el despliegue: positivo en manipulación de largo horizonte, nulo en tareas de corto horizonte y negativo en teleoperación. El presupuesto de resistencia es vinculante solo en memoria QLC/eMMC de gama baja, y aunque el enrutamiento consciente del desgaste se alinea con el valor de la tarea, las mejoras reales de rendimiento permanecen sin verificar en los datos.

arxiv arXiv cs.LG · hace 2 h

Evaluación de referencia de LLMs de código abierto para clasificación multi-etiqueta de ATT&CK

Se construyó un conjunto de datos con verdad fundamental de 2,076 oraciones anotadas por humanos procedentes de 83 informes complejos de CTI y se asignaron a 114 técnicas de ATT&CK con \k{appa} = 0.68 de acuerdo entre anotadores. Se evaluaron siete LLMs de código abierto que oscilan entre 8B y 236B parámetros, alcanzando una puntuación F1 micro-promediada máxima de 0.22. El tamaño del parámetro mostró una correlación positiva estadísticamente significativa con la puntuación F1, mientras que la estrategia de prompt y la temperatura no produjeron mejoras significativas, lo que indica que los LLMs actuales de código abierto son insuficientes para la clasificación de ATT&CK de grado de producción.

arxiv arXiv cs.LG · hace 2 h

LiL-Q: Método convexo para EDP no lineales con PINNs

Un nuevo método de cuasilinealización convexa, LiL-Q, resuelve EDP no lineales reduciéndolas a subproblemas lineales mediante redes neuronales informadas por física. LiL-Q converge en iteraciones de un solo dígito en siete puntos de referencia, alcanzando precisión de máquina cuando la solución exacta está en el espacio de prueba, y requiere hasta dos órdenes de magnitud menos de parámetros que los solucionadores PINN estándar.

arxiv arXiv cs.LG · hace 2 h

Aproximación de difusión para el aprendizaje TD con características lineales

Se introduce un modelo de ecuación diferencial estocástica para el aprendizaje TD(0) lineal bajo ruido markoviano. Separa la dinámica de contracción de los efectos de muestreo y explica el piso de error mediante la interacción entre la covarianza a largo plazo y la geometría del operador de Bellman proyectado.

arxiv arXiv cs.LG · hace 2 h

Regresión de Kolmogorov para Políticas de Difusión Robustas

Una ecuación de Kolmogorov hacia atrás eleva las políticas de difusión a un espacio de Cameron-Martin, reemplazando el emparejamiento estocástico de puntuaciones con una EDP determinista. Este enfoque logra cotas de convergencia vinculadas al rango efectivo del núcleo, mejora la regularidad de la trayectoria y permite un detector de fallos determinista sin recompensas. La validación muestra un 17% más de recompensa en PushT y un 28.4% menos de RMSE en una línea de fabricación, con una reducción del 96% en eventos de punto muerto mediante certificación de Hamilton-Jacobi.

arxiv arXiv cs.LG · hace 2 h

Se lanza el conjunto de datos ATT&CK-Labeled Multi-Source Cybersecurity Logs Dataset

Un nuevo conjunto de datos combina registros del sistema, de red y del navegador de 870 sesiones de Windows, que incluyen 70 ataques y 800 casos benignos. Proporciona etiquetas por evento con IDs de técnicas MITRE ATT&CK para 12 tácticas y 53 técnicas, utilizando herramientas de ataque reales como RAT y túneles C2. El ajuste fino de tres Modelos de Lenguaje Pequeños (SLMs) mediante LoRA mejoró la precisión de clasificación de fragmentos al 90–97% y logró hasta un 42% de precisión en coincidencia exacta en la identificación de técnicas, mostrando una fuerte captura de razonamiento a pesar de los desafíos.

arxiv arXiv cs.LG · hace 2 h

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador compartido por parámetros. Este enfoque logra hasta 100 veces mayor eficiencia de parámetros en comparación con los modelos de mundo convencionales, adaptando la profundidad computacional a cada paso de predicción. LoopWM establece la profundidad latente iterativa como una nueva dimensión de escalado para la simulación del mundo.

arxiv arXiv cs.LG · hace 2 h

¿Los conjuntos destilados superan a los corsetes?

Experimentos a gran escala muestran que los métodos de destilación de conjuntos de datos de última generación son comparables o peores que la selección de coresetes en ImageNet e ImageNette. Los coresetes logran consistentemente una mejor cobertura de datos y son más eficientes computacionalmente, destacando su superioridad práctica sobre los conjuntos destilados.

arxiv arXiv cs.LG · hace 2 h

Escalado logarítmico de los picos de cola más allá de umbrales geométricos

Las leyes de pico de cola en tiempo finito en redes estocásticas muestran una transición desde un crecimiento de raíz cuadrada hasta uno logarítmico más allá de un umbral dependiente de la geometría. Este cambio ocurre debido a la auto-normalización de las fluctuaciones relativas a la deriva, eliminando la geometría de la capacidad del coeficiente logarítmico mientras se preserva en el umbral. Las cotas inferiores confirman que tanto el término logarítmico como el umbral son inevitables, con la geometría local del cuello de botella permitiendo umbrales más agudos en conmutadores con cola de entrada.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje de la política del agente rojo a partir de observaciones para agentes cibernéticos neurosimbólicos

Se propone una técnica de aprendizaje de políticas que utiliza aprendizaje por imitación para predecir las acciones del agente rojo en entornos cibernéticos parcialmente observables. El método aprende las políticas del agente rojo a partir de observaciones de la red y acciones del defensor, permitiendo que los agentes de defensa cibernética neurosimbólicos predigan con precisión los ataques y adapten las defensas en diversos escenarios simulados.

media r/LocalLLaMA · hace 2 h

Ingeniería inversa de DeepSeek Chat para crear una API compatible con OpenAI

Un desarrollador ha creado un proxy local que realiza ingeniería inversa del chat web gratuito de DeepSeek para exponer un punto de conexión de API compatible con OpenAI en localhost:8000/v1. Esta herramienta permite que clientes existentes compatibles con OpenAI, como Open WebUI y varios SDKs, interactúen con los modelos V4 y R1 de DeepSeek sin cambios de código ni claves de API.

arxiv arXiv cs.LG · hace 2 h

AdaVoMP: Campos de Propiedades Mecánicas Volumétricas Adaptativas

AdaVoMP predice el módulo de Young, la relación de Poisson y la densidad espacialmente variables con precisión para objetos 3D en múltiples resoluciones. Utiliza una estructura de voxels esparsa y adaptativa junto con un codificador-decodificador de transformador esparsos para lograr una resolución 16^3 veces mayor que los métodos anteriores, con mejor precisión y menor cómputo durante la inferencia.