Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 112

SQLConductor: Aprendizaje de Búsqueda-a-Política para la Orquestación Paso a Paso de Texto a SQL

El artículo presenta SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación.

arxiv arXiv cs.LG · hace 6 h

VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

VeriEvol es un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta durante la construcción de datos. Emplea un módulo de evolución consciente del tipo para generar prompts más difíciles y el verificador HTV-Agent para garantizar la corrección de las respuestas mediante contraevidencia multi-fuente.

arxiv arXiv cs.LG · hace 6 h

El consumo de energía del ajuste fino de Transformers: Un modelo de escalado inspirado en roofline

Este artículo presenta un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, con el objetivo de abordar los crecientes costos computacionales en el diseño de sistemas sostenibles.

arxiv arXiv cs.LG · hace 6 h

SuperCond-GNN: Modelo sustituto de red neuronal gráfica escalable para simulaciones de circuitos superconductores

Este artículo presenta SuperCond-GNN, un modelo sustituto de red neuronal gráfica diseñado para predecir la distribución de voltaje en imanes superconductores de alta temperatura mediante el mapeo de circuitos de elementos concentrados a representaciones gráficas. El modelo logra un MAPE medio del 4.3% en apilamientos de cintas y permite una inferencia rápida de la redistribución de corriente en diversas configuraciones de circuitos.

arxiv arXiv cs.LG · hace 6 h

Aproximación de campos de velocidad con atractores plantados mediante Neural-ODEs para clasificación

Este trabajo emplea Neural ODEs equipados con una colección curada de puntos de equilibrio para realizar tareas de clasificación. Los atractores plantados sirven como indicadores para las clases objetivo, mientras que el campo de velocidad moldea el paisaje dinámico para dirigir las entradas hacia sus destinos correspondientes.

arxiv arXiv cs.LG · hace 6 h

Reflexiones sobre la programación: Aprender el orden del pensamiento en modelos de lenguaje de difusión

Los investigadores proponen Self-Aware Scheduling (SAS), un método que aprende un orden óptimo de desenmascaramiento de tokens para modelos de lenguaje de difusión enmascarados con el fin de mejorar la calidad de la generación. Al derivar una cota superior manejable sobre la discrepancia de la decodificación secuencial, el enfoque plantea la selección del orden como un problema de optimización de políticas utilizando Group Relative Policy Optimization.

media r/LocalLLaMA · hace 6 h

Minimax M3 vs M2.7

Un usuario de Reddit está solicitando comentarios de personas que han actualizado al modelo Minimax M3 desde la versión M2.7. La publicación busca opiniones de la comunidad sobre las diferencias y el rendimiento entre estas dos iteraciones.

media r/LocalLLaMA · hace 6 h

Cuantización GLM-5.2 de alta calidad en 4x DGX Spark - Guía, Resultados y Comparativas

El autor demuestra la ejecución del modelo GLM-5.2 NVFP4 en cuatro nodos NVIDIA GB10 DGX Spark con una ventana de contexto de 128K, logrando un rendimiento de servicio utilizable mediante una optimización agresiva del sistema.

media r/LocalLLaMA · hace 6 h

Guía de ejemplo de ajuste fino con MLX

Un usuario demuestra el ajuste fino de un modelo de instrucciones de 7B en Apple Silicon utilizando MLX para cambiar su estilo a la literatura de alta fantasía. El experimento muestra que un conjunto de datos pequeño y curado puede alterar significativamente el registro y el diccionario de un modelo con recursos computacionales mínimos.

arxiv arXiv cs.LG · hace 7 h

SVD-Surgeon: Cirugía óptima de valores singulares para la compresión de modelos de lenguaje grandes

Los investigadores han presentado SVD-Surgeon, un método sin entrenamiento que aplica el marco Optimal Brain Surgeon a la descomposición en valores singulares para comprimir modelos de lenguaje grandes. Este enfoque calcula actualizaciones de forma cerrada para los valores singulares retenidos con el fin de compensar los errores de truncamiento y determina qué valores deben podarse basándose en su relevancia.

arxiv arXiv cs.LG · hace 7 h

El aprendizaje por contraste consciente del paciente preserva la estructura por paciente en las representaciones de intervalo RR

El artículo aborda el desafío del aprendizaje de representaciones por contraste en señales fisiológicas donde las líneas base específicas del sujeto interfieren con los objetivos a nivel de clase, provocando que los modelos pierdan la variación individual necesaria para la generalización. Los autores proponen un objetivo por contraste consciente del paciente para la detección de Fibrilación Auricular Paroxística que forma pares positivos únicamente a partir de segmentos del mismo paciente para preservar las líneas base del ritmo sinusal mientras separa las clases.

arxiv arXiv cs.LG · hace 7 h

Una teoría espectral de la propagación GNN corregida y normalizada

Este artículo desarrolla una teoría espectral para la propagación de Redes Neuronales Gráficas (GNN) corregidas y normalizadas, centrándose en la matriz de adyacencia simétrica normalizada con su componente estacionario por grado eliminado para aislar la dirección vinculada al oversmoothing.

arxiv arXiv cs.LG · hace 7 h

MORL-A2C: Reordenador de Aprendizaje por Refuerzo Multiobjetivo para Salud

Los investigadores presentan MORL-A2C, una extensión de toma de decisiones secuenciales al sistema MOPI-HFRS que utiliza un algoritmo Actor-Crítico de Ventaja para optimizar el equilibrio entre la preferencia del usuario y la salud nutricional en las recomendaciones de alimentos.

media r/LocalLLaMA · hace 7 h

Construí un arnés de agente para modelos pequeños. Logré que Qwen 3.5 4b gestionara servidores.

El autor desarrolló un arnés de agente especializado diseñado para abordar los modos de fallo específicos de los modelos locales pequeños, como llamadas a herramientas fallidas y un pobre seguimiento del estado. Este marco personalizado permite que modelos más pequeños como Qwen 3.5 4b gestionen eficazmente servidores remotos.

media r/LocalLLaMA · hace 7 h

El modo de ejecución local convierte una imagen en un personaje adorable y controlable que puedes usar

El autor presenta la versión de 800M de un modelo que convierte imágenes en personajes controlables, diseñado para ejecutarse cómodamente en GPUs de consumo. Esta iteración aumenta el contexto a 12 cuadros latentes y mejora la estabilidad mientras mantiene un alto rendimiento, logrando más de 60 fps en una RTX 5090.

media Hugging Face Forums · hace 7 h

HoLo-ToLk: Modelos de habla sin tokenizador en sustrato HSL de 0 parámetros

El autor presenta HoLo-ToLk, un proyecto de investigación que construye modelos de habla a texto (STT) y texto a habla (TTS) utilizando el sustrato de bytes HSL de cero parámetros sin tokenizadores ni incrustaciones de entrada aprendidas. El trabajo demuestra que los bytes HSL en bruto pueden servir como una señal viable para el procesamiento de audio cuando se combinan con modificaciones arquitectónicas específicas.

github llama.cpp · hace 7 h

la versión b9837 de llama.cpp añade la bandera --reasoning-preserve y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9837, que introduce una nueva bandera `--reasoning-preserve` para la plantilla de chat Jinja con el fin de conservar los tokens de razonamiento. Esta actualización también incluye mensajes de ayuda corregidos y proporciona binarios precompilados para macOS, Linux, Windows, Android y openEuler en varios backends de hardware.

lab OpenAI News · hace 7 h

HP Inc. lanza una alianza estratégica con OpenAI en la frontera

HP Inc. está ampliando su alianza estratégica con OpenAI tras pilotos exitosos, desplegando IA en experiencias de clientes, productividad de empleados y desarrollo de software. La empresa utiliza la plataforma Frontier de OpenAI como un modelo operativo unificado para gobernar el contexto, los permisos y la evaluación a medida que avanza desde casos de uso experimentales hacia producción en toda la empresa.

arxiv arXiv cs.LG · hace 8 h

Resolver para el hiperparámetro, omitir la búsqueda: Leyes de escala óptimas de Kolmogorov para regresión por splines

El artículo presenta KORE, un método que determina la resolución óptima de la regresión por splines en forma cerrada en lugar de mediante una búsqueda exhaustiva de hiperparámetros. Al aprovechar la teoría clásica de aproximación y la identidad PRESS, equilibra analíticamente las escalas de sesgo y ruido para lograr una precisión comparable a los barridos de cuadrícula con significativamente menos cómputo.

arxiv arXiv cs.LG · hace 8 h

Las Redes de Kolmogorov-Arnold Polinomiales Aprenden la Dinámica del Juego de la Vida

Este estudio demuestra que las redes neuronales pueden aprender de manera confiable la dinámica del Juego de la Vida de Conway utilizando arquitecturas mínimas mediante el empleo de sesgos inductivos específicos en lugar de depender de procesos de búsqueda a gran escala. Los autores muestran que las variantes de red con funciones de activación alternativas superan significativamente a las Unidades Lineales Rectificadas estándar, particularmente a través del uso de activaciones polinomiales de segundo grado.