Todos los artículos
arxiv arXiv cs.AI · hace 2 h

Litmus: Especificación de métricas impulsada por código y sin etiquetas para evaluar sistemas de IA

Litmus es un sistema sin etiquetas que diseña métricas de evaluación y monitoreo para pipelines de IA al elicitar la intención de evaluación a partir del código fuente y el interrogatorio dirigido. En lugar de asumir que el objetivo de la evaluación es conocido, identifica lo que debe medirse y por qué para construir un portafolio de métricas justificado.

arxiv arXiv cs.AI · hace 2 h

ReasoningLens: Visualización jerárquica y auditoría diagnóstica para modelos de razonamiento grandes

La aparición de Modelos de Razonamiento Grandes ha introducido trazas de Chain-of-Thought excepcionalmente largas, creando una carga de transparencia donde la lógica crítica a menudo queda enterrada bajo un texto procedural masivo. Para abordar esto, los autores presentan ReasoningLens, un marco de código abierto diseñado para la visualización jerárquica y la auditoría diagnóstica de cadenas de razonamiento complejas.

arxiv arXiv cs.AI · hace 2 h

HyperQuant: Una canalización de cuantización óptima en tasa-distorsión para modelos grandes de lenguaje y difusión

HyperQuant es una canalización unificada de cuantización post-entrenamiento diseñada para los pesos y la caché KV de transformadores grandes de lenguaje y difusión, combinando transformadas de Hadamard con cuantización óptima de retículos. El método supera a esquemas recientes como HIGGS, TurboQuant y OCTOPUS en varias tasas de bits mientras mantiene una calidad casi sin pérdidas.

arxiv arXiv cs.AI · hace 2 h

GRINQH: Jerarquía de Cuantización Basada en Entrada Graduada para Generación Eficiente de LLM

Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantización y la esparsificación. El método aprovecha las magnitudes de activación para asignar dinámicamente los canales de peso a diferentes niveles de precisión, abordando la naturaleza limitada por memoria de la etapa de decodificación.

arxiv arXiv cs.AI · hace 2 h

SPIRAL: Aprender a buscar y agregar

Los autores presentan el Aprendizaje por Refuerzo Secuencial-Paralelo-Agregativo (SPIRAL), un marco que entrena modelos de lenguaje para utilizar simultáneamente primitivas de razonamiento secuencial, paralelo y agregativo. A diferencia de los métodos estándar de post-entrenamiento que optimizan únicamente para el razonamiento secuencial de una sola traza, SPIRAL unifica estos componentes en una única canalización de cómputo de inferencia. El modelo primero muestrea trazas independientes en paralelo utilizando razonamiento cadena-de-pensamiento y luego genera una traza de agregación final condicionada a esas entradas. Todo este proceso se optimiza de extremo a extremo contra la recompensa de la respuesta agregada final utilizando técnicas de aprendizaje por refuerzo basado en conjuntos y aprendizaje por refuerzo estándar. Los experimentos en tareas de razonamiento demuestran que SPIRAL escala efectivamente con los recursos de cómputo de inferencia. El enfoque supera a GRPO hasta 11 veces en eficiencia de escalado y logra un 15% más de rendimiento cuando se escalan las tres primitivas de cómputo.

arxiv arXiv cs.AI · hace 3 h

AOHP: Un arnés de agente a nivel del sistema operativo de código abierto para interacciones personalizadas, eficientes y seguras

El Proyecto Android Open Harness (AOHP) es un arnés de agente a nivel del sistema operativo de código abierto construido sobre el Proyecto de Código Abierto de Android. Aborda la discrepancia entre los sistemas operativos actuales centrados en aplicaciones y las necesidades de los agentes de IA autónomos, tratando a los agentes como actores de primer nivel del SO. El diseño introduce tres mecanismos clave: composición de servicios personalizados, interfaces eficientes para agentes y flujo seguro de información. Estas características permiten interfaces de usuario adaptables y entornos de ejecución amigables para agentes, preservando al mismo tiempo el ecosistema existente de Android. Los experimentos preliminares en tareas desafiantes demuestran mejoras significativas en el rendimiento en comparación con los sistemas convencionales. Específicamente, AOHP logró un aumento del 21.12% en las tasas de finalización de tareas en comparación con los métodos base. También redujo los costos de ejecución de tokens en un 51.55%, destacando sus ganancias de eficiencia. Además, el sistema mostró una mejor cumplimiento de las políticas de seguridad durante las interacciones mediadas por agentes.

arxiv arXiv cs.AI · hace 3 h

El auge del lenguaje militarizado en los resúmenes científicos erosiona la credibilidad

Un estudio que analiza 21.4 millones de artículos de OpenAlex y PubMed revela que los términos militaristas en los resúmenes científicos aumentaron un 48% y un 32%, respectivamente, entre 2010 y 2025. Este aumento se aceleró bruscamente después de 2019 y se correlaciona fuertemente con datos de conflictos globales a escala nacional y anual. Las ciencias sociales presentan la mayor prevalencia de este tipo de lenguaje, mientras que la ingeniería y la informática muestran las tasas de crecimiento más rápidas. El análisis también señala que la era de la COVID y el período posterior a 2022 de los modelos de lenguaje grandes redujeron la brecha lingüística entre autores nativos del inglés y no nativos. Para evaluar el impacto de esta tendencia, los investigadores realizaron un experimento de encuadre bélico dentro de los sujetos que involucró a 801 participantes y más de 32.000 ensayos. Los resultados experimentales demostraron que el encuadre bérico redujo significativamente la credibilidad percibida, la disposición a financiar y el apoyo a las políticas entre los lectores. Aunque hubo un aumento a nivel de tendencia en el sentido de urgencia, los hallazgos generales sugieren que el lenguaje militarista puede socavar el poder persuasivo de la comunicación científica.

arxiv arXiv cs.AI · hace 3 h

CADRE: Adaptación estable y eficiente en parámetros de modelos de lenguaje y visión médica con olvido acotado y deriva de previos

Los autores presentan CADRE, un marco eficiente en parámetros para adaptar modelos de lenguaje y visión médicos mientras se previene el olvido catastrófico y la deriva de previos. El método combina adaptación de bajo rango con un término de consolidación elástica de peso elástico escalado automáticamente en línea para acotar la pérdida de competencia retenida. También emplea una penalización ancla-a-previo para restringir la deriva de incrustaciones desde el modelo preentrenado congelado. Dos garantías breves respecto a la masa de consolidación y la invariancia de escala abordan la fragilidad de orden encontrada en EWC estándar. El enfoque se evaluó en datos de cáncer de mama a través de modalidades de histopatología, ultrasonido y radiografía de tórax. Al entrenar aproximadamente el 0.23% de los parámetros, CADRE logró la tasa de olvido más baja entre los métodos de adaptación. Esto representó una reducción siete veces mayor en comparación con la línea base regularizada más fuerte, bajando de 0.075 a 0.011. El modelo también demostró transferencia hacia atrás positiva donde todas las líneas base mostraron resultados negativos.

arxiv arXiv cs.AI · hace 3 h

DVL-DeepONet: Aprendizaje de operadores guiado por física para la navegación submarina resistente

Los investigadores proponen DVL-DeepONet, un marco de operador neuronal profundo guiado por física diseñado para mejorar la navegación de vehículos autónomos submarinos (AUV) en condiciones de sensores degradados. El sistema aborda desafíos derivados de mediciones ruidosas o incompletas del registro Doppler de velocidad y la ausencia de sensores inerciales en plataformas de bajo costo. Estima vectores de velocidad a través de tres escenarios operativos: estimación resistente al ruido con sensores acoplados, aprendizaje solo con DVL y recuperación de mediciones de haz. Al mapear observaciones temporales a la velocidad del vehículo mientras se imponen restricciones de consistencia física, el modelo mantiene su robustez durante perturbaciones ambientales. El marco fue validado mediante experimentos reales con AUV que cubrieron una longitud acumulada de trayectoria de aproximadamente 10,000 metros. Los resultados experimentales demuestran que las arquitecturas DVL-DeepONet superan a los algoritmos basados en modelos y aprendizaje por base por un 40%.

arxiv arXiv cs.AI · hace 3 h

POTracker optimiza LLMs para la generación de informes de cortes de energía conforme a estándares

Los modelos de lenguaje grandes recientes tienen dificultades con la generación de datos específicos del dominio debido a estrictos requisitos de formato y estructura. Para abordar la interoperabilidad de los informes de cortes de energía de servicios públicos en Estados Unidos, los investigadores proponen POTracker, un modelo optimizado para generar documentos de cumplimiento legibles por máquina. El equipo ajustó finamente Qwen2.5-7B-Instruct utilizando un objetivo novedoso llamado POTrackerLoss. Esta nueva función de pérdida tiene en cuenta tanto la similitud textual como la similitud de etiquetas estructurales entre las salidas generadas y los informes de referencia. La evaluación en un conjunto de datos de 1,000 informes demuestra que POTracker supera a cinco métodos de ajuste fino y un enfoque de conversión XML basado en reglas. El modelo mejora la precisión general hasta en un 51% y alcanza una precisión estructural del 86.47% para los informes generados. Además, un estudio humano que involucró a expertos del dominio asignó una puntuación promedio de calidad de 4.03 en una escala de 0-5 a las etiquetas generadas.

arxiv arXiv cs.AI · hace 3 h

SQLConductor: Aprendizaje de Búsqueda a Política para Orquestación Paso a Paso de Texto a SQL

Los autores proponen SQLConductor, un marco de aprendizaje de orquestación paso a paso para Texto-a-SQL que aborda las limitaciones de los pipelines fijos y los métodos estáticos de planificar-entonces-ejecutar. Este sistema formula subtareas como acciones especializadas y entrena un modelo de política para seleccionar la siguiente acción basándose en artefactos intermedios y retroalimentación. Para aprender esta política, el marco introduce Aprendizaje de Búsqueda a Política, que utiliza Monte Carlo Tree Search para explorar flujos de trabajo candidatos y estimación de estabilidad para identificar supervisión robusta. El modelo de política se entrena utilizando Supervised Fine-tuning ponderado por Estabilidad para priorizar patrones de orquestación de alta calidad y se mejora aún más mediante Curriculum Reinforcement Learning. Este enfoque transforma la búsqueda offline de flujos de trabajo en una política implementable para orquestación paso a paso durante la inferencia. Los experimentos en BIRD-Dev y conjuntos de datos fuera de distribución muestran que SQLConductor alcanza una precisión de ejecución del 73.2%, superando a métodos anteriores con backbones comparables o más grandes. Los resultados demuestran una precisión de ejecución superior y una fuerte generalización mientras coordinan modelos de acción más grandes congelados.

arxiv arXiv cs.AI · hace 3 h

VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

Los autores presentan VeriEvol, un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta. Este enfoque aborda el desafío de mantener etiquetas de recompensa fiables a medida que aumenta el volumen de datos en las tuberías de aprendizaje por refuerzo. El sistema utiliza un módulo de evolución consciente del tipo para reescribir semillas de baja dificultad en prompts más difíciles y basados en imágenes mediante operadores específicos de ruta. La verificación de respuestas es manejada por HTV-Agent, que acepta respuestas solo después de que la contraevidencia multi-fuente falla en refutarlas. Escalar los datos de ajuste fino supervisado evolucionado de 10K a 250K muestras aumentó la precisión media en cinco benchmarks de 35.42 a 54.73. Cuando se integró con una receta GRPO fija, VeriEvol proporcionó una ganancia acumulada de +3.88 sobre una línea base no evolucionada. Esta mejora se atribuye a +1.82 de los prompts evolucionados y +2.06 del verificador HTV-Agent. Los autores liberan todos los prompts, datos, modelos, código y trazas completas del verificador para permitir la auditoría y el escalado posteriores.

arxiv arXiv cs.AI · hace 3 h

Consumo de energía del ajuste fino de Transformers: Un modelo de escalado inspirado en el modelo roofline

Los autores presentan un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, abordando la necesidad de un diseño de sistemas sostenible a medida que aumentan los costos computacionales. Al realizar barridos arquitectónicos controlados en modelos BERT, relacionan el uso de energía medido con proxies ligeros para el cómputo, el tráfico de memoria y la eficiencia del hardware. El enfoque está inspirado en los modelos roofline e incorpora un factor de eficiencia del hardware basado en aceleración para tener en cuenta el paralelismo de tensores y el paralelismo de datos completamente fragmentado. Esta metodología permite derivar un modelo de ley de escalado que predice con precisión la energía de entrenamiento en configuraciones heterogéneas. El trabajo destaca la importancia crítica de predecir el consumo de energía a medida que el tamaño del modelo y la escala del paralelismo crecen. Proporciona una herramienta práctica para el diseño consciente del costo en sistemas de procesamiento de lenguaje natural a gran escala.

arxiv arXiv cs.AI · hace 3 h

El Enrutamiento Consciente de Sí Mismo Aprende el Orden de Desenmascaramiento de Tokens en Modelos de Lenguaje de Difusión

Los autores proponen el Enrutamiento Consciente de Sí Mismo (SAS) para optimizar el orden de desenmascaramiento de tokens en modelos de lenguaje de difusión enmascarados, lo cual impacta significativamente la calidad de la generación. Derivan una cota superior manejable sobre la discrepancia de decodificación secuencial utilizando divergencia de Kullback-Leibler y verosimilitud logarítmica por trayectorias. Esta cota crea una recompensa densa y consciente de sí misma que enmarca la selección del orden como un problema de optimización de políticas con un denoiser congelado. SAS aprende una política de orden ligera mediante Optimización de Política Relativa por Grupos, soportando tanto decodificación de cualquier orden como semi-autoregresiva. En tareas de Sudoku usando un modelo de 1B parámetros, la precisión mejoró del 82.0% al 91.8%, alcanzando el 97.5% después del ajuste fino de segunda etapa. Para razonamiento matemático con LLaDA-8B, pass@1 en GSM8K aumentó del 64% al 76%. El método también elevó las puntuaciones de MBPP del 39.5% al 41%, igualando o superando consistentemente los horarios heurísticos a través de varios parámetros.