Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

Gold Points Sniper: Razonamiento visual autoguiado para la comprensión de acciones finas

Gold Points Sniper (GPS) permite a los modelos ligeros de visión y lenguaje realizar razonamiento multimodal autoguiado para la comprensión de acciones humanas finas. Al integrar un Extractor de Puntos Dorados, un Cuestionador Socrático Selectivo y un Evaluador de Entailment Semántico, GPS alcanza un rendimiento comparable al de GPT-4o mientras mantiene una precisión factual superior en datos de ajuste por instrucciones basados en el benchmark CAP.

arxiv arXiv cs.AI · hace 1 h En vivo

SciVerseGym: Entorno de aprendizaje por refuerzo para el descubrimiento de cristales

SciVerseGym introduce un entorno compatible con Gymnasium que enmarca el descubrimiento de cristales como un proceso de decisión de Markov. Permite a los agentes realizar ediciones químicamente significativas en estructuras atómicas y recibir retroalimentación de evaluadores configurables, apoyando diversas acciones y tipos de observación con potenciales aprendidos por máquina o calculadoras compatibles con ASE.

arxiv arXiv cs.AI · hace 1 h En vivo

Los LLMs usan lógica de causalidad diferencial para aprender la estructura causal

Los modelos de lenguaje grandes aprenden la estructura causal a través de una lógica de causalidad diferencial, similar al método experimental. Este enfoque identifica qué secuencias de palabras influyen en los resultados y cuáles no, utilizando grandes volúmenes de datos de texto durante el entrenamiento. Características arquitecturales como las incrustaciones de tokens y la autoatención apoyan este proceso inductivo al detectar patrones de variación e indiferencia en el lenguaje.

arxiv arXiv cs.AI · hace 1 h En vivo

MMGist: Un Benchmark Multimodal Integral para 2027

MMGist es un benchmark multimodal curado con 7.262 elementos, diseñado para abordar las deficiencias de los benchmarks existentes de visión-lenguaje. Reduce el tamaño de la evaluación en un 69% y mejora la discriminación entre modelos en un 78%, mientras preserva el ranking de los modelos con una correlación de Spearman de 0,98. El benchmark destaca la lógica visual como una debilidad clave y enfatiza la importancia de la dependencia visual, el poder discriminatorio y la fiabilidad en la evaluación.

arxiv arXiv cs.AI · hace 1 h En vivo

DreamUV: Coincidencia de flujo de extremo a extremo para desempaquetado UV estilo artista

DreamUV introduce un marco de aprendizaje de extremo a extremo que trata el desempaquetado UV como un problema de coincidencia de flujo generativo. Aprende un proceso de transporte condicionado por malla para generar disposiciones UV estilo artista, con entrenamiento consciente de los bordes y ajuste fino con modelo en el bucle para garantizar la geometría de las costuras y la validez práctica. Los resultados muestran costuras más rectas, islas alineadas a los ejes más ajustadas y una alineación superior con las preferencias de artistas profesionales.

arxiv arXiv cs.AI · hace 1 h En vivo

Un VCS de Atari diferenciable para IA explicable

Se presenta un emulador completamente diferenciable del VCS Atari 2600, que reproduce los 64 juegos de ALE con precisión bit a bit en la RAM y la salida de pantalla. El sistema permite una IA explicable basada en gradientes al proporcionar una verdad fundamental compleja y completamente conocida, con implementaciones en Julia y JAX validadas contra un emulador de referencia y capaces de rollouts diferenciables de alto rendimiento en GPU.

arxiv arXiv cs.AI · hace 1 h En vivo

Escalado Fundamentado: El Determinismo como Límite Central en la IA Agéntica

El rendimiento de la IA agéntica se degrada exponencialmente en entornos no deterministas, con el éxito en k pasos cayendo como δ^k cuando el determinismo por paso δ < 1. El artículo presenta un marco que vincula el determinismo del entorno con el éxito de la tarea, la verificabilidad y la evolución de habilidades, proponiendo un Índice de Certidumbre de Suministro y un Modelo de Madurez de Determinismo de cinco niveles. Desafía las visiones predominantes al identificar el determinismo como una restricción vinculante en computación, datos, encarnación y alineación.

arxiv arXiv cs.AI · hace 2 h

Marco cognitivo de autoevolución para inteligencia científica encarnada

El artículo propone un marco cognitivo de autoevolución que utiliza modelado causal del mundo para permitir que los sistemas encarnados refinan continuamente sus modelos internos a través de la interacción. Integra modelado causal, razonamiento impulsado por intervenciones y refinamiento continuo, redefiniendo la interacción encarnada como un proceso epistémico para el descubrimiento causal y la adquisición de conocimiento. El marco apoya un cambio desde la inteligencia predictiva hacia la inteligencia epistémica, con una nueva métrica para evaluar la inteligencia científica encarnada de autoevolución.

arxiv arXiv cs.AI · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como la estilización y la integridad. La investigación destaca las diferencias clave en la profundidad y variedad de personajes entre las narrativas generadas por humanos y por máquinas.

arxiv arXiv cs.AI · hace 2 h

PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.

arxiv arXiv cs.AI · hace 2 h

Las Costuras de Errores en Aplicaciones Integradas con LLM Revelan Lagunas en las Pruebas

Un asistente de búsqueda de alquileres con LLMs y soporte multi-mercado enfrentó defectos persistentes de usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% resolvió problemas en cuatro costuras no vistas: tiempo de ejecución del navegador en vivo, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Se adoptó una práctica simple para identificar la costura con más correcciones.

arxiv arXiv cs.AI · hace 2 h

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/- . Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo trazas verificables, auditabilidad y escalabilidad sobre grandes conjuntos de datos.

arxiv arXiv cs.AI · hace 2 h

Hi-Seg: Colaboración humano-IA para la segmentación de nódulos pulmonares

Hi-Seg, un marco de trabajo con humano en el bucle basado en SAM, alcanza una puntuación media de Dice de casi 85% en la segmentación de nódulos pulmonares. Supera a cinco modelos de aprendizaje profundo de última generación y 13 variantes de SAM, con anotadores no médicos igualando el rendimiento de estudiantes de medicina de nivel inicial, reduciendo la carga de trabajo del clínico y permitiendo una anotación escalable.

arxiv arXiv cs.AI · hace 2 h

Agente orquestado por LLM para el diseño de acoplador direccional SOI

Un modelo de lenguaje grande orquesta el diseño de un acoplador direccional 2x2 de silicio sobre aislante proponiendo valores de separación y evaluando la convergencia. El diseño se valida mediante simulaciones de modos propios y FDTD en un modelo común de índice efectivo 2D, mostrando un desfase de fase consistente de 2.837(11) micrómetros que se corrige en un proceso de bucle cerrado. El dispositivo final logra una división 50/50 con una fracción cruzada de 0.498, dentro de 0.0017 del objetivo.