Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 98

FlowEdit: Adaptación de pronunciación continua en TTS con emparejamiento de flujos

FlowEdit permite que los modelos TFS de emparejamiento de flujos congelados adapten correcciones de pronunciación a lo largo del tiempo mediante ediciones latentes en incrustaciones de texto. Almacena las correcciones en una Red de Hopfield moderna y las recupera mediante atención suave con compuerta de similitud, reduciendo las tasas de error de fonema en un 92.7% en 312 sustantivos propios multilingües mientras preserva la calidad del habla general. Las correcciones tardan aproximadamente 15 segundos en completarse en una sola GPU.

arxiv arXiv cs.AI · hace 2 h

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Valida contratos de ejecución, verifica los períodos de validez y asegura el cumplimiento de políticas antes de invocar las APIs de infraestructura, proporcionando una capacidad de ejecución efímera, auditable y revocable. El prototipo fue evaluado en AWS y Kubernetes, midiendo la latencia, la propagación de revocaciones y la resistencia a inyección de fallos.

arxiv arXiv cs.AI · hace 2 h

SARLO-80: Se lanza el conjunto de datos VHR SAR-Óptico-Texto

SARLO-80 es un conjunto de datos a gran escala que combina SAR SLC de muy alta resolución, imágenes ópticas alineadas y descripciones en lenguaje natural. Incluye 119,566 tripletes de 2,500 escenas globales en 72 países, estandarizados a una cuadrícula de rango de deslizamiento de 80 cm con alineación a nivel de píxel y tres variantes de leyenda. El conjunto de datos está disponible públicamente en Hugging Face para benchmarks de aprendizaje multimodal en la geometría nativa de SAR.

arxiv arXiv cs.AI · hace 2 h

DeepSWIP: Razonamiento contrafactual en lógica probabilística neural

DeepSWIP introduce una semántica contrafactual de un solo mundo para DeepProbLog, habilitando el razonamiento causal a través de la materialización neural y el conteo de modelos ponderados. Logra inferencia exacta bajo supuestos de anclaje finito y modelo con soporte único, con experimentos que muestran una aceleración de 2.14× y una mejor calibración en comparación con los estimadores DeepTwin y AIPW.

arxiv arXiv cs.AI · hace 2 h

LedgerAgent: Estado estructurado para agentes de llamada de herramientas adherentes a la política

LedgerAgent introduce un libro mayor estructurado para mantener los estados de las tareas por separado en agentes de llamada de herramientas. Convierte los estados en prompts y aplica restricciones de la política antes de la ejecución de herramientas, reduciendo las violaciones de la política y mejorando el rendimiento en dominios de atención al cliente.

arxiv arXiv cs.AI · hace 2 h

Atribución de atención cruzada para texto-a-voz con estilo

Un nuevo método adapta DAAM a modelos de difusión de voz, analizando cómo los subtítulos de estilo influyen en las formas de onda TTS. Revela que los tokens de estilo tienen menor varianza temporal que los tokens de contenido, con la atención de estilo correlacionada al tono y la energía, y el condicionamiento máximo de estilo en capas tempranas donde la entropía de atención se minimiza, indicando máxima selectividad.

arxiv arXiv cs.AI · hace 2 h

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto asegura la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.AI · hace 2 h

G2Rec: Marco unificado para recomendación generativa

G2Rec introduce un marco escalable que combina el modelado holístico de la co-interacción basada en grafos con tokenización semántica. Permite a los modelos de recomendación generativa capturar prototipos de interés del usuario integrales y fundamentados semánticamente, sin necesidad de intereses reales del usuario, superando a los métodos existentes en recomendación secuencial a escala industrial.

arxiv arXiv cs.AI · hace 2 h

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a las predicciones dinámicas de tokens, con evidencia temprana de razonamiento no cronológico, difuminación de tokens y razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es igualmente monitoreable que Gemma 4.

arxiv arXiv cs.LG · hace 2 h

FedMGS: Síntesis de grafos federada y consciente de la modalidad para aprendizaje multimodal desbalanceado

FedMGS aborda el desequilibrio de modalidades a nivel de cliente y de nodo en el aprendizaje de grafos federados mediante la síntesis de representaciones semánticas latentes. Integra un codificador de grafos consciente de la disponibilidad, un sintetizador semántico guiado por prototipos y un mecanismo de fusión calibrado en confiabilidad para recuperar modalidades faltantes mientras se preserva la alineación semántica. Los experimentos muestran que FedMGS logra ganancias de rendimiento de hasta el 17.41% sobre las líneas base en cuatro tareas.

arxiv arXiv cs.LG · hace 2 h

La diversidad de estilos supera a la diversidad de temas en datos sintéticos sin anotación

Un nuevo marco genera diálogos sintéticos sin datos anotados por humanos, utilizando únicamente definiciones de intención. Incorpora atributos de tema y estilo, con modelos de estilización posteriores Univ y Exam, y un proceso de filtrado mediante LLM-as-a-judge. Los resultados muestran hasta el 93.3% del rendimiento de los datos anotados por humanos, confirmando que la diversidad de estilos es más crítica que la diversidad de temas para la utilidad de los datos.

arxiv arXiv cs.LG · hace 2 h

Estimación directa de la ventaja para dominios parcialmente observables

La Estimación Directa de la Ventaja (DAE) se extiende a dominios parcialmente observables con modificaciones mínimas. Un modelo de dinámica latente discreto reduce la sobrecarga computacional al aproximar eficientemente las probabilidades de transición, permitiendo un aprendizaje por refuerzo profundo escalable y eficiente en muestras en espacios de observación de alta dimensión.

arxiv arXiv cs.LG · hace 2 h

Defensa ligera contra la inyección de datos falsos en redes eléctricas

Un nuevo marco de defensa mejora la resiliencia de las redes neuronales profundas frente a ataques de inyección de datos falsos en redes eléctricas mediante la adición de una capa de relleno con pseudocaracterísticas derivadas de distribuciones estadísticas de entrada. Este enfoque ligero y agnóstico al modelo aumenta la dimensionalidad de entrada de manera aleatoria y consciente de los datos, haciendo que las perturbaciones adversarias no sean transferibles e impredecibles, contrarrestando así eficazmente los ataques sin degradación del rendimiento.

arxiv arXiv cs.LG · hace 2 h

Incrustaciones de paso de tiempo innecesarias en modelos de difusión

Un estudio muestra que los modelos de difusión pueden alcanzar minimizadores globales sin incrustaciones explícitas de paso de tiempo. Los estudios de ablación en CelebA y CIFAR-10 revelan que los modelos agnósticos al tiempo mantienen una alta fidelidad y superan a los condicionados en FID, precisión y recuperación.

arxiv arXiv cs.LG · hace 2 h

DeepGaLA: Sustitutos neuronales con incertidumbre para problemas inversos de EDP

DeepGaLA es un sustituto basado en redes neuronales que proporciona predicciones conscientes de la incertidumbre para problemas inversos en ecuaciones diferenciales parciales. Logra una precisión comparable a los sustitutos de procesos gaussianos, manteniendo la eficiencia en espacios de parámetros de alta dimensión e incorporando restricciones de ecuaciones diferenciales.

arxiv arXiv cs.LG · hace 2 h

Estudio mecanicista de la retención de representación en aprendizaje continuo

Un marco sintético revela que la superposición aumenta con el tiempo con caídas transitorias en los límites de las tareas, lo que indica interferencia específica del límite. Una mayor esparsidad de características promueve la superposición sin un olvido inevitable, siempre que se mantenga la fuerza de la representación. El rango efectivo a nivel de tarea crece con la esparsidad, mostrando un uso más amplio de la capacidad bajo condiciones dispersas.

media r/LocalLLaMA · hace 2 h

DeepSpec: Una colección de modelos de borrador para descodificación especulativa de DeepSeek AI

DeepSpec es una base de código completa lanzada por deepseek-ai para entrenar y evaluar modelos de borrador utilizados en la descodificación especulativa. El proyecto proporciona utilidades de preparación de datos, código de implementación y scripts de evaluación para facilitar el desarrollo de estos modelos auxiliares.

arxiv arXiv cs.LG · hace 2 h

HEPTv2: Transformador de puntos eficiente de extremo a extremo para la reconstrucción de partículas cargadas

HEPTv2 logra una eficiencia de rastreo del 98,6% con una tasa de falsos del 0,8% en TrackML, utilizando solo 15 ms de tiempo de inferencia y 0,4 GB de memoria por evento. Supera a los métodos anteriores basados en transformadores y grafos en eficiencia y reduce la latencia por factores de 7 y 38–52, respectivamente, permitiendo la reconstrucción de partículas en tiempo real en el HL-LHC.

arxiv arXiv cs.LG · hace 2 h

Optimización evolutiva de hiperparámetros en dos etapas para PINNs

Una estrategia evolutiva en dos etapas mejora el rendimiento de las Redes Neuronales Informadas por Física (PINNs) mediante la selección preliminar de candidatos a hiperparámetros con entrenamiento de baja fidelidad, y luego refinando los mejores candidatos con optimización basada en gradientes. El enfoque reduce significativamente el error medio en problemas de ecuaciones de Advección, Klein-Gordon y Helmholtz bajo presupuestos computacionales fijos.

arxiv arXiv cs.LG · hace 2 h

Análisis de datos topológicos para la monitorización de procesos en tiempo real

Un nuevo método combina el análisis de datos topológicos y el aprendizaje automático para monitorizar procesos dinámicos de alta dimensión. Representa los datos de series temporales como variedades, utiliza descriptores topológicos para capturar la estructura y emplea ecuaciones diferenciales ordinarias neuronales para modelar la evolución dinámica. El enfoque detecta eficazmente diversos eventos en datos de procesos industriales y supera a las alternativas basadas en reconstrucción y trayectorias.