Todos los artículos
arxiv arXiv cs.CL · hace 4 h

La fuerza de la evidencia clínica es recuperable a partir de las representaciones de LLM, no de los grados declarados

Un estudio de 22 modelos de lenguaje grandes de peso abierto revela que, si bien la fuerza de la evidencia clínica puede recuperarse a partir de las activaciones y el texto del modelo, los grados explícitamente declarados por los modelos no son mejores que el azar. Los investigadores analizaron 45.134 afirmaciones clínicas armonizadas en cuatro niveles de grados de evidencia para probar si los modelos registran y expresan la fuerza de la evidencia de manera distinta a la verdad factual.

arxiv arXiv cs.CL · hace 5 h

Descodificación difusa enmascarada como flujo de predicción x

Este artículo presenta un marco de descodificación continua para modelos de lenguaje de difusión enmascarada (MDLMs) que reinterpretar la predicción de máscaras como predicción de estado limpio para inducir un flujo continuo en el espacio de incrustaciones de entrada. Al permitir que los tokens acumulen progreso parcial y permanezcan revisables, el método aborda los compromisos prematuros inherentes a los regímenes estándar de desenmascaramiento binario.

arxiv arXiv cs.CL · hace 5 h

ThinkProbe: Perfilado estructural del razonamiento de LLM mediante grafos de pensamiento no generativos

ThinkProbe es un marco para el análisis estructural de las trazas de razonamiento de modelos de lenguaje grandes, convirtiéndolas en Grafos de Pensamiento dirigidos con ocho tipos de nodos y seis tipos de aristas. Deriva un perfil cognitivo de cinco dimensiones basado en 19 métricas a través de una pipeline completamente no generativa que combina segmentación basada en reglas y vinculación semántica discriminativa.

arxiv arXiv cs.CL · hace 5 h

Un estudio comparativo sobre las señales afectivas en incrustaciones de texto a través de teorías psicológicas de la emoción

Este estudio investiga el grado en que los codificadores de texto modernos capturan teorías psicológicas del afecto evaluando doce modelos lanzados recientemente a través de tres marcos de emoción establecidos. La investigación compara el rendimiento a nivel de palabra y a nivel de oración utilizando tanto tareas de regresión como de clasificación.

arxiv arXiv cs.CL · hace 5 h

Explicaciones localizadas basadas en conceptos de bajo costo: ¿hasta dónde podemos llegar con enfoques sin entrenamiento?

Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.

arxiv arXiv cs.CL · hace 5 h

Ajuste fino evolutivo: Aprender a descubrir en 371 tareas de optimización

Los investigadores presentan el Ajuste Fino Evolutivo (EFT), un paradigma de entrenamiento intermedio que enseña a los Modelos de Lenguaje Grandes a evolucionar soluciones en diversas tareas, convirtiendo trayectorias de búsqueda evolutiva en supervisión. Este enfoque aborda la limitación de métodos anteriores que descartan la experiencia acumulada, permitiendo a los modelos reutilizar capacidades de descubrimiento en lugar de resolver nuevos problemas desde cero.

arxiv arXiv cs.CL · hace 5 h

AB-RAG: Generación Aumentada por Recuperación con Presupuesto Adaptativo para Respuestas a Preguntas Confiables

AB-RAG es un marco de trabajo libre de entrenamiento y agnóstico al backbone que ajusta dinámicamente los esfuerzos de recuperación basándose en una estimación de confianza derivada de la certeza del modelo, el acuerdo entre la respuesta y la evidencia recuperada, y la varianza de las puntuaciones de recuperación. Este enfoque permite a los sistemas decidir si detenerse o recuperar más evidencia dentro de un presupuesto fijo sin reentrenar el modelo de lenguaje subyacente.

arxiv arXiv cs.CL · hace 5 h

La profundidad representacional de la conciencia de evaluación cambia con la escala en modelos de lenguaje de peso abierto

Este estudio investiga si los modelos de lenguaje reconocen cuándo están siendo evaluados, un factor crítico para la seguridad de la IA ya que puede hacer que los modelos alteren su comportamiento estratégicamente. Utilizando 11 modelos de peso abierto de las familias Qwen 2.5, Gemma 2 y Llama 3.2, los investigadores analizaron cómo se manifiesta la conciencia de evaluación en diferentes tamaños de modelo.

arxiv arXiv cs.CL · hace 6 h

Regla de cribado pre-registrada para bucles externos evolutivos

Los autores presentan una regla de cribado pre-registrada que determina antes de la implementación si vale la pena construir un bucle externo evolutivo sobre los parámetros de una red neuronal en comparación con una alternativa barata de un solo disparo. La regla calcula una métrica de recuperación R, definida como la mejor ganancia de un solo disparo dividida por la mejor ganancia de cualquier método barato, y prescribe omitir el bucle externo cuando R es mayor o igual al 90%.

arxiv arXiv cs.CL · hace 6 h

Creencias de LLM informadas por evidencia para el descubrimiento científico continuo

El artículo aborda la limitación del uso de "sorpresa bayesiana" estática en AutoDiscovery, introduciendo creencias de LLM informadas por evidencia, donde los priors se actualizan con evidencia de hipótesis anteriores para calcular una surprisal no estacionaria. Los autores encuentran que la generación aumentada por recuperación basada en incrustaciones sobre descubrimientos previos anticipa mejor los posteriors finales e identifican el 37.5% de las sorpresas estáticas como espurias.

arxiv arXiv cs.CL · hace 6 h

Modelos de Lenguaje de Difusión Multi-Bloque

Los investigadores proponen Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender la generación de texto por difusión de un solo bloque, descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para lograr paralelismo inter-bloque. El enfoque cierra la brecha entre los estados de entrenamiento e inferencia mediante un método post-entrenamiento llamado Forzamiento Maestro Multi-Bloque (MultiTF).

arxiv arXiv cs.CL · hace 7 h

PolicyGuard: Un verificador de sub-agente fundamentado en el diálogo para la adherencia a políticas en agentes LLM

Los investigadores presentan PolicyGuard, un verificador de sub-agente diseñado para mejorar la adherencia a políticas en agentes LLM mediante el razonamiento sobre el contexto completo del diálogo, en lugar de depender de verificaciones externas de argumentos individuales. Este enfoque aborda las limitaciones de los métodos de salvaguarda anteriores que a menudo subestiman la necesidad de correcciones específicas de la conversación y la confirmación explícita del usuario.

arxiv arXiv cs.CL · hace 7 h

Modelo de lenguaje grande de razonamiento orientado al viaje mediante grafos de conocimiento específicos del dominio

Los investigadores proponen una tubería modular para construir un modelo de lenguaje grande de razonamiento en el dominio de viajes, fundamentado en un grafo de conocimiento diseñado por expertos, para abordar problemas de precisión y confiabilidad en dominios especializados. El enfoque integra un grafo de conocimiento de viajes, un procedimiento de construcción ascendente para pares de preguntas y respuestas de múltiples saltos, y ajuste fino supervisado para incrustar el conocimiento del dominio como trazas de razonamiento auditables.