Todos los artículos
arxiv arXiv cs.AI · hace 2 h

Evolución oculta del contexto visual disfrazado en VLMs

Los tokens visuales ingresan a los modelos de lenguaje grandes como señales crudas y no estructuradas. Su transformación e integración internas dependen de la arquitectura, ya sea como prompts in-context o inyectados en capas intermedias, lo que conduce a distintas trayectorias evolutivas en la representación visual y las características de frecuencia. Encontramos que la atención por sí sola es insuficiente; el rendimiento está impulsado por la calidad de las representaciones visuales en cada capa a través de diferentes paradigmas de integración.

arxiv arXiv cs.AI · hace 2 h

Optimización evolutiva en el espacio residual mediante modelos generativos basados en flujos

Un marco agnóstico al modelo combina la edición generativa basada en flujos con algoritmos evolutivos para habilitar la edición de datos en entornos no diferenciables. Opera en el espacio residual, utilizando autofecundación para el refinamiento local y fecundación cruzada para la exploración amplia, validado en MorphoMNIST y datos cristalinos para equilibrar la alineación con el objetivo, la preservación de instancias y la diversidad.

arxiv arXiv cs.AI · hace 2 h

IHUBERT: Modelo preentrenado en persa con deduplicación semántica

IHUBERT es un modelo de lenguaje preentrenado monolingüe en persa, entrenado sobre un subconjunto curado de 45 GB de la colección Sepahr-Danesh. Utiliza deduplicación semántica basada en vectores y una canalización de preentrenamiento equilibrada por dominio para mejorar la calidad del corpus y reducir la redundancia, logrando un rendimiento destacado en respuesta a preguntas extractivas y resultados sólidos en NER y clasificación de temas, aunque la extracción de relaciones sigue siendo un desafío.

arxiv arXiv cs.AI · hace 2 h

MakeupMirror mejora la preservación de atributos faciales en modelos de difusión

MakeupMirror, un modelo de transferencia de maquillaje basado en difusión, mejora la preservación de características faciales y tono de piel respecto a Stable-Makeup. Logra una mejora del +60% en similitud de reconocimiento facial y una reducción del -50% en diferencia de tono de piel, con un 94% de aceptación por expertos y una latencia de inferencia de 0.7s en conjuntos de datos diversos.

arxiv arXiv cs.AI · hace 2 h

Transformador de difusión híbrido para edición de audio guiada por instrucciones

Una arquitectura híbrida de transformador de difusión en dos etapas permite una edición de audio guiada por instrucciones eficiente y precisa. Utiliza alineación semántica de grueso a fino mediante atención conjunta a baja resolución, seguida de una edición refinada con atención conjunta y cruzada alternada a alta resolución. El método logra un mejor rendimiento en tareas de edición complejas con mayor eficiencia y un modelo compacto.

arxiv arXiv cs.AI · hace 2 h

Modelos del Mundo Sensorimotores para la Percepción Alineada con la Acción

Un nuevo modelo del mundo sensorimotor (SMWM) aprende representaciones latentes compactas y relevantes para la acción a partir de trayectorias offline. Utiliza regularización de dinámica inversa para evitar el colapso de la representación y alinear los estados latentes con los grados de libertad ambientales controlables, permitiendo un entrenamiento estable sin regularizadores complejos ni componentes congelados. SMWM logra un rendimiento competitivo en planificación en tareas de control 2D y 3D.

arxiv arXiv cs.AI · hace 3 h

Marco de doble agente para traducción verificada entre modelos

Un marco de doble agente convierte protocolos experimentales en lenguaje natural en comandos ejecutables para plataformas robóticas de laboratorio. Utiliza un Agente Analizador y un motor de mapeo basado en reglas para traducir los protocolos, con un Agente de Validación LLM heterogéneo que asegura la precisión e inicia la autocorrección. El marco permite con éxito la ejecución autónoma de extremo a extremo de experimentos basados en placas de microtitulación como el ensayo de Bradford.

arxiv arXiv cs.AI · hace 3 h

ScaffoldAgent: Optimización dinámica de esquías guiada por utilidad

ScaffoldAgent introduce un marco guiado por utilidad para la optimización dinámica de esquemas en investigación profunda abierta. Modela la evolución del esquema a través de operaciones de Expansión, Contracción y Revisión, guiadas por un mecanismo de retroalimentación que evalúa la ganancia de recuperación, la coherencia estructural y la calidad de generación. Los experimentos muestran que mejora la generación de informes de formato largo y el anclaje factual en comparación con agentes existentes.

arxiv arXiv cs.AI · hace 3 h

Emparejamiento de flujos consciente de la frecuencia para la generación de acciones robóticas

El emparejamiento de flujos consciente de la frecuencia (FAFM) permite la generación continua y temporalmente consistente de acciones robóticas transformando secuencias discretas de acciones al dominio de la frecuencia mediante la transformada coseno discreta. Regulariza las derivadas temporales de primer orden con una restricción de tipo Sobolev para asegurar acciones suaves, mejorando las tasas de éxito, la suavidad del movimiento y la robustez en tareas sintéticas y del mundo real sin añadir parámetros a la red.

arxiv arXiv cs.AI · hace 3 h

RACL: Capa de Control de Agente de Razonamiento para Aprendizaje Metaheurístico

RACL introduce un agente de razonamiento que controla el comportamiento de búsqueda metaheurística sin reemplazar optimizadores ni alterar restricciones. Mejora o iguala políticas clave en experimentos de enrutamiento de vehículos, reduciendo el costo promedio en un 8.337% frente a las políticas Fijas y en un 1.605% frente a las políticas Activadas por Estancamiento, sin sobrecarga computacional significativa.

arxiv arXiv cs.AI · hace 3 h

BIM-Edit: Evaluación de LLMs para la edición de BIM basada en IFC

BIM-Edit presenta un benchmark para evaluar modelos de lenguaje grandes en la edición de Modelos de Información de Construcción en formato IFC mediante lenguaje natural. Incluye 324 tareas de edición en 11 modelos de edificios reales y 36 sintéticos, evaluando precisión geométrica, validez semántica y consistencia topológica. El mejor modelo alcanza solo un puntaje promedio del 49.5%, sin que ningún modelo resuelva más del 3.4% de las tareas, lo que destaca una brecha significativa en las capacidades de los LLMs para flujos de trabajo de diseño de ingeniería.

arxiv arXiv cs.AI · hace 3 h

Se descubre que las representaciones de la calidad del ensayo en los LLM son linealmente accesibles

Un estudio revela que la información sobre la calidad del ensayo en los modelos de lenguaje grandes está codificada en formas linealmente accesibles dentro de sus representaciones ocultas. Estas representaciones emergen capa por capa, permanecen estables entre diferentes prompts y muestran transferencia parcial entre distintos prompts de ensayo, con los ensayos más largos dependiendo más de las capas más profundas del modelo. La investigación identifica 'neuronas específicas para la puntuación de ensayos' cuya activación se correlaciona fuertemente con las puntuaciones y puede ser influenciada por intervenciones dirigidas.

arxiv arXiv cs.AI · hace 3 h

MedRLM: Marco de Inteligencia Clínica Multimodal Recursiva

Los MedRLs permiten el razonamiento clínico de contexto largo mediante la inspección recursiva de datos del paciente a través de texto, imágenes, sensores y guías. Integra agentes especializados y una Memoria de Grafo de Evidencia Clínica para conectar observaciones con evidencia y criterios de referencia, apoyando el razonamiento activado por sensores y la revisión clínica con puerta de incertidumbre.

arxiv arXiv cs.AI · hace 3 h

Benchmark RS-Neg y método NeFo para la comprensión de negación en MLLMs de teledetección

RS-Neg es el primer benchmark para evaluar la comprensión de negación en tareas de teledetección a través de escenarios a nivel de región y a nivel de escena. Revela que los MLLMs avanzados de teledetección tienen dificultades con la negación, mostrando alucinaciones y caídas de rendimiento. NeFo, un método de aprendizaje en tiempo de prueba, mejora la comprensión de la negación utilizando solo el 5% de datos de prueba sin etiquetar y se generaliza bien a nuevas tareas.