Todos los artículos
arxiv arXiv cs.AI · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como la estilización y la integridad. La investigación destaca las diferencias clave en la profundidad y variedad de personajes entre las narrativas generadas por humanos y por máquinas.

arxiv arXiv cs.AI · hace 2 h

PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.

arxiv arXiv cs.AI · hace 2 h

Las Costuras de Errores en Aplicaciones Integradas con LLM Revelan Lagunas en las Pruebas

Un asistente de búsqueda de alquileres con LLMs y soporte multi-mercado enfrentó defectos persistentes de usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% resolvió problemas en cuatro costuras no vistas: tiempo de ejecución del navegador en vivo, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Se adoptó una práctica simple para identificar la costura con más correcciones.

arxiv arXiv cs.AI · hace 2 h

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/- . Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo trazas verificables, auditabilidad y escalabilidad sobre grandes conjuntos de datos.

arxiv arXiv cs.AI · hace 2 h

Hi-Seg: Colaboración humano-IA para la segmentación de nódulos pulmonares

Hi-Seg, un marco de trabajo con humano en el bucle basado en SAM, alcanza una puntuación media de Dice de casi 85% en la segmentación de nódulos pulmonares. Supera a cinco modelos de aprendizaje profundo de última generación y 13 variantes de SAM, con anotadores no médicos igualando el rendimiento de estudiantes de medicina de nivel inicial, reduciendo la carga de trabajo del clínico y permitiendo una anotación escalable.

arxiv arXiv cs.AI · hace 2 h

Agente orquestado por LLM para el diseño de acoplador direccional SOI

Un modelo de lenguaje grande orquesta el diseño de un acoplador direccional 2x2 de silicio sobre aislante proponiendo valores de separación y evaluando la convergencia. El diseño se valida mediante simulaciones de modos propios y FDTD en un modelo común de índice efectivo 2D, mostrando un desfase de fase consistente de 2.837(11) micrómetros que se corrige en un proceso de bucle cerrado. El dispositivo final logra una división 50/50 con una fracción cruzada de 0.498, dentro de 0.0017 del objetivo.

arxiv arXiv cs.AI · hace 2 h

Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.

arxiv arXiv cs.AI · hace 2 h

El Preprocesamiento Lado a Prompt Mejora la Precisión de la IA en el Borde

Un marco de prompt estructurado mejora la precisión de los LLM locales en el monitoreo ambiental al transformar datos crudos de sensores en representaciones textuales enriquecidas. Las evaluaciones en conjuntos de datos interiores y exteriores muestran que la precisión del modelo local aumenta de 50.9% a 81.7% en interiores y de 63.7% a 79.3% en exteriores con prompts enriquecidos, manteniendo una baja latencia de casi 0.22 segundos en modo sin cadena de pensamiento.

arxiv arXiv cs.AI · hace 2 h

Imagine para garantizar la seguridad en el aprendizaje por refuerzo jerárquico

El método combina un modelo de mundo aprendible con políticas de alto y bajo nivel para permitir una exploración segura en tareas de largo horizonte. La política de alto nivel guía la exploración hacia subobjetivos seguros, mientras que la política de bajo nivel utiliza rollouts imaginados para prevenir comportamientos inseguros, superando a los métodos existentes de Safe RL en tasa de éxito y satisfacción de restricciones en diversas tareas.

arxiv arXiv cs.AI · hace 2 h

Decadencia de la gobernanza en agentes LLM de horizonte largo

La compactación del contexto en agentes LLM de horizonte largo elimina silenciosamente las restricciones de seguridad en el contexto, lo que lleva a acciones de herramientas prohibidas. En 1,323 episodios, la compactación aumenta las violaciones de política del 0% al 30% y hasta el 59% para algunos modelos, con violaciones que alcanzan el 38% cuando se eliminan las restricciones. El Anclaje de Restricciones, un método sin entrenamiento, restaura cero violaciones al aislar las restricciones de gobernanza de la compactación.

arxiv arXiv cs.AI · hace 2 h

Marco de Optimización Robusta Generativa

La Optimización Robusta Generativa (GRO) introduce un modelo generativo profundo para definir conjuntos de incertidumbre, capturando correlaciones no lineales, asimetría y multimodalidad. Un marco de evaluación de cinco puntos valora los conjuntos de incertidumbre basados en redes neuronales en términos de fidelidad de reconstrucción, coincidencia de distribución, regularidad latente, relevancia robusta y tractabilidad computacional, con experimentos que validan la efectividad de GRO en la planificación de producción y la ubicación de instalaciones.

arxiv arXiv cs.AI · hace 2 h

Gazer: Corrección semántica sin entrenamiento para modelos visuales autoregresivos

Gazer introduce un marco de trabajo sin entrenamiento que utiliza retroalimentación de modelos de lenguaje grande multimodales para corregir errores semánticos en tiempo real durante la generación de modelos visuales autoregresivos. Al integrar etapas de diagnóstico reflexivo y corrección semántica, Gazer mejora la precisión composicional y la alineación semántica en múltiples modelos sin entrenamiento adicional.

arxiv arXiv cs.AI · hace 2 h

Cadena de Pensamiento Multimodal: Capacidades y Limitaciones

El razonamiento de Cadena de Pensamiento Multimodal mejora el rendimiento en razonamiento matemático y científico, pero perjudica la fundamentación visual y el conteo de objetos en tareas de percepción. Los modelos exhiben un patrón 'Mirar Ligero, Pensar Pesado', donde la reflexión visual disminuye mientras aumenta el razonamiento verbal, lo que indica un cuello de botella persistente en la introspección visual durante el razonamiento multimodal.