Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 109

POTracker optimiza LLMs para la generación de informes de cortes de energía conforme a estándares

Los modelos de lenguaje grandes recientes tienen dificultades con la generación de datos específicos del dominio debido a estrictos requisitos de formato y estructura. Para abordar la interoperabilidad de los informes de cortes de energía de servicios públicos en Estados Unidos, los investigadores proponen POTracker, un modelo optimizado para generar documentos de cumplimiento legibles por máquina. El equipo ajustó finamente Qwen2.5-7B-Instruct utilizando un objetivo novedoso llamado POTrackerLoss. Esta nueva función de pérdida tiene en cuenta tanto la similitud textual como la similitud de etiquetas estructurales entre las salidas generadas y los informes de referencia. La evaluación en un conjunto de datos de 1,000 informes demuestra que POTracker supera a cinco métodos de ajuste fino y un enfoque de conversión XML basado en reglas. El modelo mejora la precisión general hasta en un 51% y alcanza una precisión estructural del 86.47% para los informes generados. Además, un estudio humano que involucró a expertos del dominio asignó una puntuación promedio de calidad de 4.03 en una escala de 0-5 a las etiquetas generadas.

arxiv arXiv cs.AI · hace 3 h

SQLConductor: Aprendizaje de Búsqueda a Política para Orquestación Paso a Paso de Texto a SQL

Los autores proponen SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que aborda las limitaciones de los pipelines fijos y los métodos estáticos de planificar-entonces-ejecutar. Este sistema formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación. Para aprender esta política, el marco introduce Aprendizaje de Búsqueda a Política, que utiliza Monte Carlo Tree Search para explorar flujos de trabajo candidatos y estimación de estabilidad para identificar supervisión robusta. El modelo de política se entrena utilizando Supervised Fine-tuning ponderado por Estabilidad para priorizar patrones de orquestación de alta calidad y se mejora aún más mediante Curriculum Reinforcement Learning. Este enfoque transforma la búsqueda offline de flujos de trabajo en una política implementable para orquestación paso a paso durante la inferencia. Los experimentos en BIRD-Dev y conjuntos de datos fuera de distribución muestran que SQLConductor alcanza una precisión de ejecución del 73.2%, superando a métodos anteriores con backbones comparables o más grandes. Los resultados demuestran una precisión de ejecución superior y una fuerte generalización mientras coordinan modelos de acción más grandes congelados.

arxiv arXiv cs.AI · hace 3 h

VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

Los autores presentan VeriEvol, un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta. Este enfoque aborda el desafío de mantener etiquetas de recompensa fiables a medida que aumenta el volumen de datos en las tuberías de aprendizaje por refuerzo. El sistema utiliza un módulo de evolución consciente del tipo para reescribir semillas de baja dificultad en prompts más difíciles y basados en imágenes mediante operadores específicos de ruta. La verificación de respuestas es manejada por HTV-Agent, que acepta respuestas solo después de que la contraevidencia multi-fuente falla en refutarlas. Escalar los datos de ajuste fino supervisado evolucionado de 10K a 250K muestras aumentó la precisión media en cinco benchmarks de 35.42 a 54.73. Cuando se integró con una receta GRPO fija, VeriEvol proporcionó una ganancia acumulada de +3.88 sobre una línea base no evolucionada. Esta mejora se atribuye a +1.82 de los prompts evolucionados y +2.06 del verificador HTV-Agent. Los autores liberan todos los prompts, datos, modelos, código y trazas completas del verificador para permitir la auditoría y el escalado posteriores.

arxiv arXiv cs.AI · hace 3 h

Consumo de energía del ajuste fino de Transformers: Un modelo de escalado inspirado en el modelo roofline

Los autores presentan un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, abordando la necesidad de un diseño de sistemas sostenible a medida que aumentan los costos computacionales. Al realizar barridos arquitectónicos controlados en modelos BERT, relacionan el uso de energía medido con proxies ligeros para el cómputo, el tráfico de memoria y la eficiencia del hardware. El enfoque está inspirado en los modelos roofline e incorpora un factor de eficiencia del hardware basado en aceleración para tener en cuenta el paralelismo de tensores y el paralelismo de datos completamente fragmentado. Esta metodología permite derivar un modelo de ley de escalado que predice con precisión la energía de entrenamiento en configuraciones heterogéneas. El trabajo destaca la importancia crítica de predecir el consumo de energía a medida que el tamaño del modelo y la escala del paralelismo crecen. Proporciona una herramienta práctica para el diseño consciente del costo en sistemas de procesamiento de lenguaje natural a gran escala.

media r/LocalLLaMA · hace 3 h

El usuario implementa la ejecución de herramientas C++ con MiMo-V2.5-GGUF

Un usuario utilizó con éxito el modelo MiMo-V2.5-GGUF para escribir una herramienta integrada de llama.cpp que ejecuta código C++ y recupera los resultados. La implementación se logró mediante opencode, donde el modelo generó el código necesario basándose en instrucciones específicas.

arxiv arXiv cs.AI · hace 4 h

El Enrutamiento Consciente de Sí Mismo Aprende el Orden de Desenmascaramiento de Tokens en Modelos de Lenguaje de Difusión

Los autores proponen el Enrutamiento Consciente de Sí Mismo (SAS) para optimizar el orden de desenmascaramiento de tokens en modelos de lenguaje de difusión enmascarados, lo cual impacta significativamente la calidad de la generación. Derivan una cota superior manejable sobre la discrepancia de decodificación secuencial utilizando divergencia de Kullback-Leibler y verosimilitud logarítmica por trayectorias. Esta cota crea una recompensa densa y consciente de sí misma que enmarca la selección del orden como un problema de optimización de políticas con un denoiser congelado. SAS aprende una política de orden ligera mediante Optimización de Política Relativa por Grupos, soportando tanto decodificación de cualquier orden como semi-autoregresiva. En tareas de Sudoku usando un modelo de 1B parámetros, la precisión mejoró del 82.0% al 91.8%, alcanzando el 97.5% después del ajuste fino de segunda etapa. Para razonamiento matemático con LLaDA-8B, pass@1 en GSM8K aumentó del 64% al 76%. El método también elevó las puntuaciones de MBPP del 39.5% al 41%, igualando o superando consistentemente los horarios heurísticos a través de varios parámetros.

arxiv arXiv cs.AI · hace 4 h

KORE: Leyes de Escalamiento Óptimo de Kolmogorov para Regresión por Splines

Los investigadores proponen KORE, un método que resuelve la resolución óptima del spline en forma cerrada en lugar de depender de la búsqueda de hiperparámetros. El enfoque aprovecha la teoría clásica de aproximación para fijar el sesgo al cuadrado a la n-amplitud de Kolmogorov y utiliza la identidad PRESS para la estimación del error de eliminación uno a uno. Al equilibrar estas curvas conocidas, el algoritmo determina analíticamente el minimizador sin barridos exhaustivos de cuadrícula. KORE extiende este cálculo a altas dimensiones reemplazando la dimensión ambiental de entrada con el orden de interacción en una descomposición ANOVA. El algoritmo ajusta dos resoluciones piloto y resuelve un sistema calibrado por apalancamiento para evaluar la resolución plug-in con el mínimo cómputo. En objetivos aditivos y pares dispersos hasta 80 dimensiones, KORE iguala la precisión de la validación cruzada exhaustiva mientras ajusta aproximadamente ocho veces menos modelos. En 36 conjuntos de datos tabulares reales, ocupó el primer lugar entre 21 métodos en precisión por unidad de cómputo.

arxiv arXiv cs.AI · hace 4 h

Kamera: Caché de KV multimodal invariante a la posición sin entrenamiento para reutilización eficiente

Los autores presentan Kamera, un método que permite la reutilización sin entrenamiento de cachés de clave-valor multimodales abordando la pérdida de condicionamiento entre fragmentos en el almacenamiento en caché de prefijos ingenuo. La fusión estándar de estados recupera las lecturas directas pero falla en preservar el residuo difuso y de rango bajo en las capas profundas, esencial para el razonamiento multi-paso, lo que reduce la precisión a la mitad. Para reparar esto, Kamera almacena un pequeño parche de condicionamiento de rango bajo sin entrenamiento junto con cada fragmento independiente de posición. Este enfoque permite la re-rotación exacta de RoPE y la restauración del enlace entre fragmentos en los mecanismos de atención MLA, GQA y MHA. El sistema soporta operaciones baratas de reordenamiento, supervivencia de ventana deslizante y recuperación sin requerir re-codificación de los fragmentos expulsados. Los experimentos muestran que un parche de rango r recupera la precisión completa de la tarea en benchmarks de enlace entre fragmentos como MM-NIAH y doc-QA de dos páginas. La solución reconstruye el KV de re-llenado dentro del redondeo bf16 en un kernel SGLang de producción a través de seis backbones mientras mantiene una fracción de la huella original de KV.

arxiv arXiv cs.AI · hace 4 h

Gestión descentralizada del tráfico autónomo mediante redes de corredores

Este estudio aborda la insuficiencia de la gestión centralizada para el tráfico de aeronaves autónomas de alta densidad, proponiendo un enfoque descentralizado que utiliza aprendizaje por refuerzo multiagente. Los investigadores extienden este marco MARL para gestionar el flujo de tráfico dentro de complejas redes de corredores aéreos con fusiones y divisiones. Las políticas entrenadas en entornos de corredor único se prueban en escenarios de múltiples corredores cada vez más complejos de manera zero-shot, sin necesidad de reentrenamiento. Los resultados experimentales muestran que los comportamientos aprendidos se transfieren eficazmente entre distintas densidades de tráfico, geometrías de red y desempeños heterogéneos de vehículos. La evaluación mide el rendimiento a nivel del sistema mediante la conformidad con los límites, las tasas de finalización, las velocidades promedio, la distancia recorrida y la separación entre aeronaves. A pesar de requerir solo comportamientos de entrada, tránsito y salida coordinados localmente, las acciones colectivas producen flujos de tráfico deseables en toda la red de corredores.

arxiv arXiv cs.AI · hace 4 h

Enactor: Un modelo generativo para microsimulación en bucle cerrado de intersecciones semaforizadas

Los autores presentan Enactor, un modelo generativo centrado en el actor, diseñado para la microsimulación en bucle cerrado en intersecciones semaforizadas. A diferencia de los simuladores tradicionales que dependen de reglas elaboradas a mano o predictores de horizonte corto, Enactor se centra en la dinámica vehicular mientras trata a los peatones como influencias contextuales. La arquitectura codifica actores dinámicos y polilíneas de carril en coordenadas polares con respecto al centro de la intersección. Un transformador con bloques de atención espacial y temporal separados predice una distribución sobre los parámetros de movimiento del siguiente paso para cada actor. El entrenamiento emplea un currículo en bucle cerrado, exponiendo el modelo a sus propias predicciones para garantizar estabilidad durante la simulación. Las evaluaciones en dos geometrías de intersección muestran que Enactor recupera las distribuciones del generador de datos SUMO con una divergencia KL significativamente menor que los transformadores base. El modelo también reduce las infracciones de luz roja en más de un orden de magnitud y supera a los modelos base de velocidad constante en datos de campo del mundo real.

arxiv arXiv cs.AI · hace 4 h

La homología persistente detecta y dirige las respuestas de los LLM hacia preguntas mal planteadas

Los investigadores proponen utilizar la homología persistente finita de dimensión cero para representar la topología de preguntas mal planteadas dentro de modelos de lenguaje grandes. El método modela los estados ocultos contextuales como nubes de puntos, resumiendo cada capa del transformador con tres descriptores: vida media finita, entropía de vida normalizada y concentración de mayor vida. Estos descriptores se concatenan a través de las capas para formar una representación topológica unificada del estado interno de la consulta. El estudio introduce el direccionamiento de activación condicionado por topología, que recupera ejemplos similares para construir intervenciones que fomenten la aclaración o la abstención. Las evaluaciones en AmbigQA, SituatedQA y CLAMBER muestran que este enfoque supera a las líneas base basadas en prompts, mejorando la precisión de clasificación del 67.4% al 78.9% en AmbigQA. En SituatedQA, la precisión aumentó del 79.9% al 88.5%, mientras que CLAMBER registró ganancias del 57.6% al 69.6%. Además, el mecanismo de direccionamiento elevó la tasa promedio total de respuestas aceptables del 61.4% al 70.6% en tres LLM de peso abierto.

arxiv arXiv cs.AI · hace 4 h

Contra la optimización de proxy

El autor analiza las condiciones bajo las cuales maximizar una función de utilidad proxy puede llevar a resultados perjudiciales. Este análisis sugiere que dichos escenarios plantean problemas significativos para la aplicación de la teoría de la decisión estándar. El texto destaca circunstancias específicas donde la optimización de un objetivo sustituto se desvía de los resultados esperados. Estos hallazgos desafían la robustez de los marcos teóricos actuales utilizados en inteligencia artificial y economía. Al identificar estos modos de fallo, el trabajo tiene como objetivo refinar cómo deben diseñarse los agentes para evitar consecuencias no deseadas.

arxiv arXiv cs.LG · hace 4 h

Supervisión de límites guiada por entropía para la segmentación de ultrasonido mamario

Este estudio introduce un método de supervisión de límites guiado por entropía para abordar la fuga de límites y las activaciones falsas positivas en la segmentación de ultrasonido mamario. La función de pérdida propuesta escala las penalizaciones del contorno mediante la entropía predictiva por píxel y los mapas de verdad fundamental, enfocando la importancia del gradiente en los márgenes de la lesión inciertos. Evaluado en el conjunto de datos BUSI, el método preservó la calidad de la segmentación de lesiones con una puntuación media Dice de 0.7624, estadísticamente indistinguible de la línea base. Sin embargo, mejoró significativamente la especificidad al reducir las activaciones falsas positivas en imágenes sin lesión de 19 de 20 a 5 de 20. Un paso posterior de escalado térmico espacial redujo aún más el error de calibración esperado de 0.0201 a 0.0095 sin alterar las máscaras de segmentación. Estos resultados demuestran que la supervisión guiada por entropía y la calibración espacial funcionan como refinamientos complementarios dentro de un marco U-Net.

media r/LocalLLaMA · hace 4 h

¿Por qué hay tantos modelos ajustados finamente en HuggingFace?

El autor observa que la mayoría de los modelos ajustados finamente cargados en Hugging Face tienen un rendimiento inferior al de sus contrapartes base, lo que los hace inútiles. Esta proliferación se atribuye a personas que utilizan estos modelos como una forma de acreditación profesional para conseguir puestos bien remunerados en IA.

arxiv arXiv cs.AI · hace 4 h

Polycepta: Estimación de apariencia centrada en objetos para seguimiento multi-objeto

Los autores presentan Polycepta, un marco de estimación del estado de apariencia centrado en objetos que reformula el modelado de la apariencia como un problema de estimación recursiva. A diferencia de los métodos tradicionales que dependen de descriptores estáticos e independientes del fotograma, Polycepta construye y actualiza continuamente estados de apariencia independientes para cada objeto rastreado. Este enfoque permite estimar representaciones futuras a partir de observaciones acumuladas en lugar de memorizarlas mediante una estrategia de aprendizaje específica. Una característica clave es que la calidad de la estimación de la apariencia mejora progresivamente a medida que los estados del objeto evolucionan durante la inferencia. El marco permite la estimación de la apariencia para clases no vistas al fomentar el aprendizaje de la construcción de representaciones específicas del objeto. Experimentos extensos en KITTI, Waymo Open Dataset y MOT17 demuestran reducciones consistentes en los cambios de identidad y un mejor rendimiento del seguimiento. Cuando se integra en el marco RobMOT, Polycepta opera a 90.57 Hz y alcanza una MOTA de 92.27% en el benchmark KITTI.

arxiv arXiv cs.AI · hace 4 h

La coincidencia aprendida dualmente permite la conectividad lineal de modos para transformadores de miles de millones de parámetros

Los investigadores proponen un marco escalable para habilitar la fusión basada en conectividad lineal de modos para transformadores preentrenados de miles de millones de parámetros. Los métodos existentes típicamente optimizan rutas de interpolación desde solo un extremo del modelo, limitando la escalabilidad para arquitecturas grandes. El nuevo enfoque aplica transformaciones de pesos parametrizadas para alinear soluciones funcionalmente equivalentes y utiliza un procedimiento de aprendizaje dual donde ambos modelos aprenden conjuntamente transformaciones hacia una ruta compartida. Esta optimización bidireccional reduce sustancialmente las barreras de interpolación y mejora la fiabilidad de la fusión en modelos a gran escala. Empíricamente, el método logra barreras de pérdida cercanas a cero en WikiText para modelos de lenguaje de tamaño medio. En tareas de visión, ViT-L mantiene una precisión top-1 de ImageNet superior al 69% a lo largo de toda la ruta de interpolación. Los LLM modernos de miles de millones de parámetros exhiben solo pequeñas barreras de pérdida utilizando esta técnica.

arxiv arXiv cs.AI · hace 4 h

Descubrimiento causal en la era de los agentes

Los esfuerzos recientes para integrar modelos de lenguaje grandes con el descubrimiento causal a menudo se basan en inferir estructuras de grafos o inyectar salidas como priors, lo que corre el riesgo de confundir asociaciones textuales con evidencia causal genuina. Los autores argumentan que los agentes deberían asistir en el flujo de trabajo inspeccionando datos, recuperando contexto y aclarando supuestos sin proporcionar aristas, orientaciones o conclusiones causales. Proponen un principio que asegura que las afirmaciones causales permanezcan fundamentadas en datos, supuestos explícitos, algoritmos formales, diagnósticos y decisiones de expertos. Para instanciar este enfoque, introducen causal-learn+, una plataforma en línea que coordina el preprocesamiento, la recomendación de métodos y la interpretación dentro del ecosistema causal-learn. Un estudio de caso sobre datos de personalidad Big Five demuestra un flujo de trabajo asistido por agentes que evita tratar la falta de fiabilidad de los modelos de lenguaje como evidencia causal. La plataforma está disponible en causallearn.com.

arxiv arXiv cs.AI · hace 4 h

Los Árboles de Clasificación Neurales Desacoplan Subgrupos Latentes para ML Robusto

Los modelos de aprendizaje automático a menudo explotan correlaciones espurias, lo que lleva a una alta precisión promedio pero un mal rendimiento en subgrupos infrarrepresentados. Las estrategias de mitigación existentes generalmente ajustan los parámetros de la red utilizando anotaciones de subgrupos o pseudoetiquetas inferidas. Sin embargo, estos métodos generalmente solo producen una predicción de clase en el momento de la inferencia, careciendo de información sobre la estructura del subgrupo latente de una muestra. Para abordar esto, los autores proponen Árboles de Clasificación Neurales (NCT), un marco que codifica la estructura del subgrupo dentro de su arquitectura en forma de árbol. NCT enruta cada muestra a un nodo fácil o difícil según la corrección de la predicción y reutiliza estos caminos como pseudoetiquetas para iteraciones posteriores. Este proceso desacopla subgrupos conflictivos sin requerir supervisión explícita del subgrupo. El enfoque se evaluó en cinco conjuntos de datos que abarcan correlaciones espurias binarias y multiclase. Los experimentos demuestran que la topología del árbol aprendido aísla los subgrupos minoritarios, proporcionando una fuerte interpretabilidad y robustez competitiva en comparación con los métodos de última generación.

arxiv arXiv cs.AI · hace 4 h

Autofiltrado: Selección iterativa de datos para modelos de visión y lenguaje

Los autores proponen un nuevo método de arranque en cascada llamado Autofiltrado para abordar el ruido en conjuntos de datos a gran escala de visión y lenguaje sin depender de supervisión manual ni referencias curadas. Este enfoque entrena un modelo CLIP en un conjunto de datos en evolución que equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución. El proceso alterna entre entrenar el modelo y seleccionar una mezcla de datos mejorada para los pasos siguientes. Al refinar continuamente el conjunto de datos mediante este ciclo, el método reduce la necesidad de fuentes adicionales de datos externos. El estudio demuestra que entrenar con estos conjuntos de datos auto-seleccionados mejora eficazmente el rendimiento en tareas posteriores. Esta técnica opera independientemente de modelos preentrenados o estrategias de filtrado basadas en heurísticas.

arxiv arXiv cs.AI · hace 4 h

RECALL: Aprendizaje Activo Continuo para Modelos Visión-Lenguaje-Acción

El artículo presenta RECALL, un paradigma de aprendizaje activo y continuo para modelos Visión-Lenguaje-Acción que aborda las ineficiencias del aprendizaje por imitación pasiva. A diferencia de los métodos tradicionales que requieren fallos del robot para desencadenar la recolección de datos, este enfoque utiliza demostraciones de recuperación guiadas por incertidumbre para identificar proactivamente los estados que necesitan supervisión. Los autores demuestran que esta recolección de datos dirigida conduce a un ajuste fino más eficiente en comparación con las demostraciones recopiladas pasivamente. Sin embargo, el estudio revela que el ajuste fino exclusivamente con estos datos activos de recuperación provoca un olvido catastrófico de los comportamientos aprendidos previamente. Para mitigar este problema, el trabajo evalúa técnicas de aprendizaje continuo como la mezcla de datos basada en replay y la consolidación elástica de pesos. Estos experimentos destacan las compensaciones críticas entre la plasticidad para nuevas tareas y la retención de capacidades existentes en VLAs autoregresivos. En última instancia, la investigación establece que, aunque la recuperación guiada por incertidumbre mejora la eficiencia de adaptación, incorporar datos nuevos dirigidos a grandes políticas robóticas presenta desafíos abiertos significativos.