Todos los artículos
arxiv arXiv cs.CL · hace 7 h

LatentRevise: Aprendizaje a partir de razonamiento con cero aciertos

El artículo presenta LatentRevise, un método de revisión latente de primer orden diseñado para recuperar señales de entrenamiento en aprendizaje por refuerzo con recompensas verificables (RLVR) para prompts donde las trayectorias correctas se muestrean raramente. Al optimizar los embeddings de entrada de un prefijo de razonamiento basándose en rollouts fallidos y respuestas doradas, el método genera datos útiles a partir de intentos previamente improductivos.

arxiv arXiv cs.CL · hace 7 h

Saber antes de recuperar: Asignación calibrada del presupuesto de recuperación para la generación aumentada por recuperación

Este artículo presenta un marco de trabajo de RAG adaptativo que asigna presupuestos de recuperación al calibrar las señales de incertidumbre de log-probabilidad de secuencia y logit de prefijo en probabilidades de corrección. El sistema decide si responder con conocimiento interno, recuperar un contexto compacto (k=1), recuperar un contexto completo (k=5) o abstenerse basándose en estas probabilidades calibradas.

arxiv arXiv cs.CL · hace 7 h

IHDec: Decodificación contrastiva guiada por divergencia para asegurar jerarquías de instrucciones en múltiples turnos

IHDec aborda el fallo de los Modelos de Lenguaje Grandes (LLM) para mantener jerarquías de instrucciones en contextos de múltiples turnos, aprovechando la Divergencia de Jensen-Shannon para detectar y corregir inversiones de influencia de roles. Este método sin entrenamiento suprime dinámicamente los roles subordinados que anulan las directivas superiores durante la generación de tokens.

arxiv arXiv cs.CL · hace 7 h

¿Medimos la estrategia o la redacción? La brecha entre la diversidad superficial y la de enfoque en el razonamiento matemático de LLM

Este estudio introduce la diversidad de enfoque para abordar la brecha entre la variación superficial y las diferencias estratégicas reales en el razonamiento matemático de LLM. Demuestra que las métricas anteriores no logran capturar la verdadera diversidad metodológica, lo que lleva a un declive en la diversidad de enfoque durante el entrenamiento de RLVR consciente de la diversidad.

arxiv arXiv cs.CL · hace 7 h

VISTA: Un panel de control propioceptivo para la gestión del contexto de LLM

El artículo presenta VISTA, una capa sin entrenamiento diseñada para abordar las limitaciones de la ventana de contexto de los agentes de herramientas a largo plazo exponiendo su estado interno. Argumenta que los modelos de vanguardia son ciegos ante su propio uso del contexto y propone una interfaz que muestra detalles de la memoria de trabajo en lugar de depender de políticas de compresión aprendidas.

arxiv arXiv cs.CL · hace 7 h

Consistencia semántica nodo-vecindario: Alineación texto-topología para detección de anomalías en TAGs

Este artículo aborda la detección de anomalías en grafos atribuidos con texto al formalizarla como un problema de consistencia semántica nodo-vecindario, donde las anomalías surgen de discrepancias entre la semántica textual y las relaciones topológicas. Los autores proponen N2NSC, un marco que utiliza dos caminos de fusión complementarios para alinear la topología del grafo con la semántica textual, permitiendo que los modelos de lenguaje grandes aprovechen tanto la información estructural como la textual del vecindario.

arxiv arXiv cs.CL · hace 7 h

SHOVIR: Una evaluación para medir el aprendizaje de atajos visuales en la generación de informes radiológicos

La evaluación SHOVIR mide el aprendizaje de atajos visuales en la generación de informes radiológicos al extender MIMIC-CXR y PadChest-GR con etiquetas CheXpert por cuadro. Utiliza experimentos de oclusión a nivel de imagen y de enfermedad para aislar atajos directos y contextuales donde los modelos dependen de correlaciones espurias en lugar de evidencia visual real.

arxiv arXiv cs.CL · hace 8 h

Sabores casi-humanos: el omnivorismo estilizado de los sustitutos de encuestas de LLM

Este estudio evalúa la capacidad de los modelos de lenguaje grandes para aproximar los gustos culturales humanos generando sustitutos de silicio a partir de la Encuesta de Participación Pública en las Artes. Utilizando modelos de OpenAI, Anthropic y DeepSeek, los autores analizan 277.470 encuestados sintéticos para determinar si los LLM pueden replicar fielmente los datos de encuestas del mundo real.

arxiv arXiv cs.CL · hace 8 h

¿Realmente ayuda el pensamiento en cadena detallado? Evidencia dentro de la distribución de que el contenido, no la longitud, es lo que importa

Este estudio investiga si el uso de prompts de pensamiento en cadena detallados mejora el razonamiento de los modelos de lenguaje grandes mediante un mayor cómputo o al proporcionar contenido semántico útil. Los autores presentan evidencia obtenida del muestreo dentro de la distribución e intervenciones controladas para determinar los factores específicos que impulsan las mejoras en el rendimiento.

arxiv arXiv cs.CL · hace 8 h

Modelos de lenguaje de ADN: Una evaluación del preentrenamiento para tareas de ajuste fino

Este estudio evalúa las ganancias de rendimiento de los modelos de lenguaje de ADN basados en transformadores como DNABERT2 en comparación con enfoques convencionales como ConvNova, abordando específicamente el alto costo del preentrenamiento. Investiga si estas mejoras justifican la sobrecarga computacional y analiza el impacto de la tokenización por Pares de Bytes (BPE) en tareas genómicas.

arxiv arXiv cs.CL · hace 8 h

Estimación de direcciones de género gramatical en incrustaciones contextuales bajo contextos controlados y naturales

Este estudio aborda la confusión entre el género gramatical y el sesgo semántico social en modelos de lenguaje contextuales para idiomas con género como el español, proponiendo un marco para desentrañar estas dimensiones. Los autores construyen conjuntos de datos equilibrados utilizando plantillas controladas y contextos naturales de Wikipedia para estimar las direcciones de género mientras suprimen la contaminación.

arxiv arXiv cs.CL · hace 8 h

CORTEX: Organización de alta calidad de corpora a escala web mediante un grafo de corpus ontológico

Los autores presentan Cortex, un marco que transforma la construcción de corpora a escala web desde el filtrado plano de documentos hacia una organización estructurada del conocimiento utilizando un Grafo de Corpus Ontológico (OCG). Esta estructura de tres capas unifica contenido refinado por calidad, una ontología jerárquica ligera y alineación entre dominios para abordar los crecientes requisitos de datos de los modelos de lenguaje grandes.

arxiv arXiv cs.CL · hace 8 h

DAIN: Red de Interacción Dinámica Basada en Agentes para el Razonamiento Multimodal Eficiente y Colaborativo

Los investigadores presentan la Red de Interacción Dinámica Basada en Agentes (DAIN), un marco que reconceptualiza la fusión multimodal como un proceso colaborativo dinámico de múltiples agentes, en lugar de depender de arquitecturas estáticas. DAIN utiliza un Meta-Controlador consciente del contexto para programar dinámicamente la activación dispersa de agentes especializados y orquesta una comunicación comprimida para la construcción de consenso.

arxiv arXiv cs.CL · hace 8 h

Prevenir es Precaución: Cuando el Embedding No Secuencial se Convierte en un Detector de Anomalías

Este artículo analiza los embeddings multimodales a nivel de oración no secuenciales, centrándose en el modelo SONAR, para demostrar que dimensiones específicas del embedding son sensibles a perturbaciones y pueden indicar anomalías de decodificación. Al aprovechar la consistencia entre la codificación y decodificación sucesivas, los autores construyen con éxito un detector de anomalías preciso.

arxiv arXiv cs.CL · hace 9 h

Antes de pensar, aprende a decidir: Enrutamiento proactivo para el razonamiento visual eficiente

Los autores proponen PRP, un Paradigma de Enrutamiento Proactivo que acelera la inferencia en grandes modelos multimodales mediante la toma de decisiones tempranas a través de la evaluación conjunta de la competencia del modelo borrador y del modelo objetivo. Este enfoque aborda el cuello de botella de establecer señales confiables de dificultad de consulta en entornos multimodales sin depender de ajustes finos supervisados sensibles a los datos ni de probabilidades de tokens posteriores al proceso.

arxiv arXiv cs.CL · hace 9 h

EvalSafetyGap: Un marco híbrido de encuesta y concepto para fallos de seguridad en la evaluación de LLM

Este artículo aborda el problema compartido de medición en la evaluación de LLM y la seguridad de IA, donde las puntuaciones de los benchmarks a menudo mejoran mientras que las propiedades de seguridad latentes permanecen difíciles de verificar. Introduce EvalSafetyGap, un marco híbrido de encuesta y concepto que combina síntesis sistemática de evidencia con una auditoría estructurada de diez modelos.

arxiv arXiv cs.CL · hace 9 h

CaresAI en CT-DEB26: Detección de errores de dosificación en ensayos clínicos mediante incrustaciones de transformadores específicos del dominio y modelos de clasificación

Este estudio evalúa el uso de incrustaciones de transformadores específicas del dominio combinadas con modelos clásicos de aprendizaje automático para detectar errores de dosificación en protocolos de ensayos clínicos. La investigación tiene como objetivo mejorar la seguridad del paciente y la integridad del ensayo identificando errores de medicación prevenibles temprano mediante el análisis de representación textual.