Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 112

Monitores basados en mecanismos para la detección preventiva de inestabilidad en el entrenamiento de LLM

Este artículo introduce monitores basados en mecanismos diseñados para detectar la inestabilidad del entrenamiento de modelos de lenguaje grandes antes de que cause daños significativos. Al derivar señales internas a partir de los roles funcionales de módulos críticos, estos monitores identifican fallos miles de pasos antes que los métodos tradicionales basados en pérdida.

arxiv arXiv cs.CL · hace 4 h

De tokens a estados: los LLM como un caso especial de modelos del mundo

El artículo desafía la dicotomía entre los grandes modelos de lenguaje y los modelos del mundo al argumentar que los LLM son en realidad un caso especial degenerado de modelos del mundo, en lugar de un reemplazo. Plantea que existe un espectro continuo desde la predicción del siguiente token hasta las arquitecturas de espacio latente, con la investigación actual ocupando ya posiciones intermedias.

arxiv arXiv cs.CL · hace 4 h

Epi2Diff: Usar trazas de razonamiento de LLM para predecir la dificultad de los ítems humanos

Los investigadores presentan Epi2Diff, un marco que mapea las trazas de Modelos de Razonamiento Grande (LRM) en secuencias de episodios fundamentadas cognitivamente para predecir la dificultad de los ítems humanos en evaluación educativa. Al modelar la dificultad a través de la escala de razonamiento, la asignación de esfuerzo y las transiciones de estado, el método proporciona una alternativa interpretable a la costosa calibración humana.

arxiv arXiv cs.CL · hace 4 h

HPRO: Optimización jerárquica progresiva de recompensas para TTS emocional

Los autores proponen HPRO, un marco de optimización jerárquica progresiva de recompensas diseñado para mejorar la expresividad emocional en modelos de Texto-a-Voz basados en LLM mientras se preserva la inteligibilidad lingüística. Este enfoque aborda las discrepancias estructurales en los métodos existentes basados en preferencias al aislar el contenido y la emoción, y cerrar la brecha entre las recompensas dispersas y la generación densa.

arxiv arXiv cs.CL · hace 4 h

Vision-Default, Prior-Override: Mecanismos causales del conflicto entre percepción y conocimiento en modelos de visión-lenguaje

Este estudio investiga cómo los modelos de visión-lenguaje resuelven conflictos entre evidencia visual y conocimiento mundial memorizado combinando parcheo de activación con análisis mecanicista a través de tres familias de modelos. La investigación identifica un circuito causal disperso donde el anclaje visual es el predeterminado, mientras que sobrescribirlo con conocimiento previo requiere cabezales de atención específicos.

arxiv arXiv cs.CL · hace 4 h

Google presenta la herramienta Paper Assistant para revisión científica automatizada

Para abordar los desafíos de escalabilidad de la revisión por pares tradicional en la era de la ciencia asistida por IA, los investigadores proponen una taxonomía de colaboración entre IA y humanos e introducen la herramienta Paper Assistant (PAT). PAT es un marco de IA agente diseñado para ingerir manuscritos científicos completos y producir evaluaciones exhaustivas verificando resultados teóricos, validando experimentos e identificando posibles fallas.

media r/LocalLLaMA · hace 4 h

Ejecutando Llama 3.1 405B en un nodo único de 8xA100 con adaptadores LoRA cargados en caliente

Un usuario demuestra con éxito la ejecución del modelo Llama 3.1 405B cuantizado a AWQ-INT4 en un nodo equipado con ocho GPUs A100 de 80GB, permitiendo cargar y cambiar hasta 30 especialistas ajustados en menos de 200ms.

media r/LocalLLaMA · hace 4 h

Ubuntu, CUDA, versionado de llama.cpp

Un usuario comparte su experiencia resolviendo problemas de versionado del kit de herramientas CUDA en Ubuntu para habilitar las capacidades de cómputo para GPUs más nuevas como la arquitectura Blackwell y la RTX 5060 Ti. La publicación destaca que el repositorio apt predeterminado proporciona versiones de CUDA desactualizadas, lo que requiere la instalación manual del paquete Debian desde el sitio web de NVIDIA.

arxiv arXiv cs.LG · hace 5 h

Estimación sin simulación de flujos de tráfico a partir de datos de conteo dispersos

Los autores proponen un método para estimar patrones de flujo de tráfico variables en el tiempo a partir de conteos agregados dispersos de vehículos, dividiendo el área de estudio y resolviendo un problema de optimización de mínimos cuadrados ponderados. Este enfoque utiliza una matriz de contribución ponderada para codificar la cobertura del sensor, dirigiendo el optimizador hacia configuraciones de flujo que son directamente observables.

arxiv arXiv cs.LG · hace 5 h

SQLConductor: Aprendizaje de Búsqueda-a-Política para la Orquestación Paso a Paso de Texto a SQL

El artículo presenta SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación.

arxiv arXiv cs.LG · hace 5 h

VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

VeriEvol es un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta durante la construcción de datos. Emplea un módulo de evolución consciente del tipo para generar prompts más difíciles y el verificador HTV-Agent para garantizar la corrección de las respuestas mediante contraevidencia multi-fuente.

arxiv arXiv cs.LG · hace 5 h

El consumo de energía del ajuste fino de Transformers: Un modelo de escalado inspirado en roofline

Este artículo presenta un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, con el objetivo de abordar los crecientes costos computacionales en el diseño de sistemas sostenibles.

arxiv arXiv cs.LG · hace 5 h

SuperCond-GNN: Modelo sustituto de red neuronal gráfica escalable para simulaciones de circuitos superconductores

Este artículo presenta SuperCond-GNN, un modelo sustituto de red neuronal gráfica diseñado para predecir la distribución de voltaje en imanes superconductores de alta temperatura mediante el mapeo de circuitos de elementos concentrados a representaciones gráficas. El modelo logra un MAPE medio del 4.3% en apilamientos de cintas y permite una inferencia rápida de la redistribución de corriente en diversas configuraciones de circuitos.

arxiv arXiv cs.LG · hace 5 h

Aproximación de campos de velocidad con atractores plantados mediante Neural-ODEs para clasificación

Este trabajo emplea Neural ODEs equipados con una colección curada de puntos de equilibrio para realizar tareas de clasificación. Los atractores plantados sirven como indicadores para las clases objetivo, mientras que el campo de velocidad moldea el paisaje dinámico para dirigir las entradas hacia sus destinos correspondientes.

arxiv arXiv cs.LG · hace 5 h

Reflexiones sobre la programación: Aprender el orden del pensamiento en modelos de lenguaje de difusión

Los investigadores proponen Self-Aware Scheduling (SAS), un método que aprende un orden óptimo de desenmascaramiento de tokens para modelos de lenguaje de difusión enmascarados con el fin de mejorar la calidad de la generación. Al derivar una cota superior manejable sobre la discrepancia de la decodificación secuencial, el enfoque plantea la selección del orden como un problema de optimización de políticas utilizando Group Relative Policy Optimization.

media r/LocalLLaMA · hace 5 h

Minimax M3 vs M2.7

Un usuario de Reddit está solicitando comentarios de personas que han actualizado al modelo Minimax M3 desde la versión M2.7. La publicación busca opiniones de la comunidad sobre las diferencias y el rendimiento entre estas dos iteraciones.

media r/LocalLLaMA · hace 5 h

Cuantización GLM-5.2 de alta calidad en 4x DGX Spark - Guía, Resultados y Comparativas

El autor demuestra la ejecución del modelo GLM-5.2 NVFP4 en cuatro nodos NVIDIA GB10 DGX Spark con una ventana de contexto de 128K, logrando un rendimiento de servicio utilizable mediante una optimización agresiva del sistema.

media r/LocalLLaMA · hace 5 h

Guía de ejemplo de ajuste fino con MLX

Un usuario demuestra el ajuste fino de un modelo de instrucciones de 7B en Apple Silicon utilizando MLX para cambiar su estilo a la literatura de alta fantasía. El experimento muestra que un conjunto de datos pequeño y curado puede alterar significativamente el registro y el diccionario de un modelo con recursos computacionales mínimos.

arxiv arXiv cs.LG · hace 6 h

SVD-Surgeon: Cirugía óptima de valores singulares para la compresión de modelos de lenguaje grandes

Los investigadores han presentado SVD-Surgeon, un método sin entrenamiento que aplica el marco Optimal Brain Surgeon a la descomposición en valores singulares para comprimir modelos de lenguaje grandes. Este enfoque calcula actualizaciones de forma cerrada para los valores singulares retenidos con el fin de compensar los errores de truncamiento y determina qué valores deben podarse basándose en su relevancia.

arxiv arXiv cs.LG · hace 6 h

El aprendizaje por contraste consciente del paciente preserva la estructura por paciente en las representaciones de intervalo RR

El artículo aborda el desafío del aprendizaje de representaciones por contraste en señales fisiológicas donde las líneas base específicas del sujeto interfieren con los objetivos a nivel de clase, provocando que los modelos pierdan la variación individual necesaria para la generalización. Los autores proponen un objetivo por contraste consciente del paciente para la detección de Fibrilación Auricular Paroxística que forma pares positivos únicamente a partir de segmentos del mismo paciente para preservar las líneas base del ritmo sinusal mientras separa las clases.