Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 98

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

arxiv arXiv cs.AI · hace 1 h En vivo

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 1 h En vivo

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 1 h En vivo

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 1 h En vivo

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 1 h En vivo

Calibración sin comprensión en la detección de vulnerabilidades de LLM

CWE-Trace evalúa ocho LLMs base y 15 LLMs ajustados con LoRA en la detección de vulnerabilidades del kernel de Linux. Los resultados muestran que la contaminación de los datos no ofrece ninguna ventaja, y el ajuste fino solo desplaza los umbrales de salida sin alterar las políticas de decisión. A pesar de las puntuaciones de detección mejoradas, los LLMs carecen de razonamiento de seguridad confiable, con una precisión de CWE top-1 inferior al 1.3% y un rendimiento de detección binaria del 52.1%.

arxiv arXiv cs.AI · hace 1 h En vivo

FreeStyle: Generación escalable de referencias duales de estilo y contenido mediante minería de LoRA comunitario

FreeStyle propone un marco que mina LoRAs comunitarios para generar tripletes de imágenes de referencia dual de estilo-contenido a gran escala. Emplea un currículo en dos etapas con mecanismos de desentrelazamiento para suprimir la fuga de estilo e introduce una evaluación con puntuaciones invariantes al estilo y basadas en VLM para evaluar la preservación del contenido y el rechazo de fugas.

arxiv arXiv cs.LG · hace 1 h En vivo

SSH-Net: Red neuronal profunda para la predicción del tiempo de fallo bajo riesgos competitivos

SSH-Net es una red neuronal profunda estructurada diseñada para predecir funciones de distribución del tiempo de fallo bajo riesgos competitivos. Utiliza subredes separadas para diferentes grupos de covariables, mejorando la precisión al alinear la estructura neuronal con la jerarquía de los datos. El modelo se valida mediante estudios de simulación y se aplica a datos de fallo de GPUs Titan.

arxiv arXiv cs.LG · hace 1 h En vivo

Percolación crítica como modelo de datos sintéticos para interpretabilidad

Un nuevo conjunto de datos sintético basado en clústeres de percolación de campo medio crítico proporciona un modelo realista y analíticamente manejable con estructura jerárquica. Presenta clústeres dispersos y fractales con distribuciones de tamaño de ley de potencias y variables latentes que generan valores objetivo a través de una jerarquía taxonómica. Las redes neuronales pueden decodificar linealmente estas variables latentes verdaderas desde las activaciones, demostrando una fuerte interpretabilidad.

arxiv arXiv cs.AI · hace 1 h En vivo

Cómo los LLM alineados con la seguridad interpretan demostraciones mixtas de cumplimiento

Los estudios muestran que las demostraciones benignas y dañinas de cumplimiento no son intercambiables en los LLM. Las demostraciones benignas pueden reducir o aumentar el cumplimiento dañino dependiendo del modelo, con la optimización de preferencias desempeñando un papel clave para prevenir el cumplimiento dañino. El orden de las demostraciones muestra un fuerte sesgo de recencia, y los modelos varían en cómo manejan el rechazo durante el aprendizaje in-context.

arxiv arXiv cs.AI · hace 1 h En vivo

Verificación probabilística eficiente y válida para agentes de IA

Un nuevo marco permite la aplicación segura y probabilística de políticas para agentes de IA en entornos ambiguos. Utiliza optimización robusta distribucional para calcular límites superiores rigurosos sobre las probabilidades de violación de políticas sin asumir independencia de predicados. El método supera a los enfoques anteriores en benchmarks de agentes con terminales y llamadas a herramientas, mejorando el equilibrio entre seguridad y utilidad.

arxiv arXiv cs.AI · hace 1 h En vivo

Multi-LCB: Extender LiveCodeBench a 12 lenguajes de programación

Multi-LCB extiende LiveCodeBench a doce lenguajes de programación, preservando sus controles de contaminación y protocolo de evaluación. Revela sobreajuste en Python, sesgos específicos del lenguaje y brechas significativas de rendimiento entre LLMs a través de los lenguajes, estableciendo un riguroso benchmark para la generación de código multilingüe.

arxiv arXiv cs.AI · hace 1 h En vivo

FlowEdit: Adaptación de pronunciación continua en TTS con emparejamiento de flujos

FlowEdit permite que los modelos TFS de emparejamiento de flujos congelados adapten correcciones de pronunciación a lo largo del tiempo mediante ediciones latentes en incrustaciones de texto. Almacena las correcciones en una Red de Hopfield moderna y las recupera mediante atención suave con compuerta de similitud, reduciendo las tasas de error de fonema en un 92.7% en 312 sustantivos propios multilingües mientras preserva la calidad del habla general. Las correcciones tardan aproximadamente 15 segundos en completarse en una sola GPU.

arxiv arXiv cs.AI · hace 1 h En vivo

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Valida contratos de ejecución, verifica los períodos de validez y asegura el cumplimiento de políticas antes de invocar las APIs de infraestructura, proporcionando una capacidad de ejecución efímera, auditable y revocable. El prototipo fue evaluado en AWS y Kubernetes, midiendo la latencia, la propagación de revocaciones y la resistencia a inyección de fallos.

arxiv arXiv cs.AI · hace 1 h En vivo

SARLO-80: Se lanza el conjunto de datos VHR SAR-Óptico-Texto

SARLO-80 es un conjunto de datos a gran escala que combina SAR SLC de muy alta resolución, imágenes ópticas alineadas y descripciones en lenguaje natural. Incluye 119,566 tripletes de 2,500 escenas globales en 72 países, estandarizados a una cuadrícula de rango de deslizamiento de 80 cm con alineación a nivel de píxel y tres variantes de leyenda. El conjunto de datos está disponible públicamente en Hugging Face para benchmarks de aprendizaje multimodal en la geometría nativa de SAR.

arxiv arXiv cs.AI · hace 1 h En vivo

DeepSWIP: Razonamiento contrafactual en lógica probabilística neural

DeepSWIP introduce una semántica contrafactual de un solo mundo para DeepProbLog, habilitando el razonamiento causal a través de la materialización neural y el conteo de modelos ponderados. Logra inferencia exacta bajo supuestos de anclaje finito y modelo con soporte único, con experimentos que muestran una aceleración de 2.14× y una mejor calibración en comparación con los estimadores DeepTwin y AIPW.

arxiv arXiv cs.AI · hace 1 h En vivo

LedgerAgent: Estado estructurado para agentes de llamada de herramientas adherentes a la política

LedgerAgent introduce un libro mayor estructurado para mantener los estados de las tareas por separado en agentes de llamada de herramientas. Convierte los estados en prompts y aplica restricciones de la política antes de la ejecución de herramientas, reduciendo las violaciones de la política y mejorando el rendimiento en dominios de atención al cliente.

arxiv arXiv cs.AI · hace 1 h En vivo

Atribución de atención cruzada para texto-a-voz con estilo

Un nuevo método adapta DAAM a modelos de difusión de voz, analizando cómo los subtítulos de estilo influyen en las formas de onda TTS. Revela que los tokens de estilo tienen menor varianza temporal que los tokens de contenido, con la atención de estilo correlacionada al tono y la energía, y el condicionamiento máximo de estilo en capas tempranas donde la entropía de atención se minimiza, indicando máxima selectividad.

arxiv arXiv cs.AI · hace 1 h En vivo

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto asegura la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.AI · hace 2 h

G2Rec: Marco unificado para recomendación generativa

G2Rec introduce un marco escalable que combina el modelado holístico de la co-interacción basada en grafos con tokenización semántica. Permite a los modelos de recomendación generativa capturar prototipos de interés del usuario integrales y fundamentados semánticamente, sin necesidad de intereses reales del usuario, superando a los métodos existentes en recomendación secuencial a escala industrial.