Todos los artículos
arxiv arXiv cs.CL · hace 5 h

Un estudio comparativo sobre las señales afectivas en incrustaciones de texto a través de teorías psicológicas de la emoción

Este estudio investiga el grado en que los codificadores de texto modernos capturan teorías psicológicas del afecto evaluando doce modelos lanzados recientemente a través de tres marcos de emoción establecidos. La investigación compara el rendimiento a nivel de palabra y a nivel de oración utilizando tanto tareas de regresión como de clasificación.

arxiv arXiv cs.CL · hace 5 h

Explicaciones localizadas basadas en conceptos de bajo costo: ¿hasta dónde podemos llegar con enfoques sin entrenamiento?

Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.

arxiv arXiv cs.CL · hace 5 h

Ajuste fino evolutivo: Aprender a descubrir en 371 tareas de optimización

Los investigadores presentan el Ajuste Fino Evolutivo (EFT), un paradigma de entrenamiento intermedio que enseña a los Modelos de Lenguaje Grandes a evolucionar soluciones en diversas tareas, convirtiendo trayectorias de búsqueda evolutiva en supervisión. Este enfoque aborda la limitación de métodos anteriores que descartan la experiencia acumulada, permitiendo a los modelos reutilizar capacidades de descubrimiento en lugar de resolver nuevos problemas desde cero.

arxiv arXiv cs.CL · hace 5 h

AB-RAG: Generación Aumentada por Recuperación con Presupuesto Adaptativo para Respuestas a Preguntas Confiables

AB-RAG es un marco de trabajo libre de entrenamiento y agnóstico al backbone que ajusta dinámicamente los esfuerzos de recuperación basándose en una estimación de confianza derivada de la certeza del modelo, el acuerdo entre la respuesta y la evidencia recuperada, y la varianza de las puntuaciones de recuperación. Este enfoque permite a los sistemas decidir si detenerse o recuperar más evidencia dentro de un presupuesto fijo sin reentrenar el modelo de lenguaje subyacente.

arxiv arXiv cs.CL · hace 5 h

La profundidad representacional de la conciencia de evaluación cambia con la escala en modelos de lenguaje de peso abierto

Este estudio investiga si los modelos de lenguaje reconocen cuándo están siendo evaluados, un factor crítico para la seguridad de la IA ya que puede hacer que los modelos alteren su comportamiento estratégicamente. Utilizando 11 modelos de peso abierto de las familias Qwen 2.5, Gemma 2 y Llama 3.2, los investigadores analizaron cómo se manifiesta la conciencia de evaluación en diferentes tamaños de modelo.

arxiv arXiv cs.CL · hace 6 h

Regla de cribado pre-registrada para bucles externos evolutivos

Los autores presentan una regla de cribado pre-registrada que determina antes de la implementación si vale la pena construir un bucle externo evolutivo sobre los parámetros de una red neuronal en comparación con una alternativa barata de un solo disparo. La regla calcula una métrica de recuperación R, definida como la mejor ganancia de un solo disparo dividida por la mejor ganancia de cualquier método barato, y prescribe omitir el bucle externo cuando R es mayor o igual al 90%.

arxiv arXiv cs.CL · hace 6 h

Creencias de LLM informadas por evidencia para el descubrimiento científico continuo

El artículo aborda la limitación del uso de "sorpresa bayesiana" estática en AutoDiscovery, introduciendo creencias de LLM informadas por evidencia, donde los priors se actualizan con evidencia de hipótesis anteriores para calcular una surprisal no estacionaria. Los autores encuentran que la generación aumentada por recuperación basada en incrustaciones sobre descubrimientos previos anticipa mejor los posteriors finales e identifican el 37.5% de las sorpresas estáticas como espurias.

arxiv arXiv cs.CL · hace 6 h

Modelos de Lenguaje de Difusión Multi-Bloque

Los investigadores proponen Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender la generación de texto por difusión de un solo bloque, descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para lograr paralelismo inter-bloque. El enfoque cierra la brecha entre los estados de entrenamiento e inferencia mediante un método post-entrenamiento llamado Forzamiento Maestro Multi-Bloque (MultiTF).

arxiv arXiv cs.CL · hace 7 h

PolicyGuard: Un verificador de sub-agente fundamentado en el diálogo para la adherencia a políticas en agentes LLM

Los investigadores presentan PolicyGuard, un verificador de sub-agente diseñado para mejorar la adherencia a políticas en agentes LLM mediante el razonamiento sobre el contexto completo del diálogo, en lugar de depender de verificaciones externas de argumentos individuales. Este enfoque aborda las limitaciones de los métodos de salvaguarda anteriores que a menudo subestiman la necesidad de correcciones específicas de la conversación y la confirmación explícita del usuario.

arxiv arXiv cs.CL · hace 7 h

Modelo de lenguaje grande de razonamiento orientado al viaje mediante grafos de conocimiento específicos del dominio

Los investigadores proponen una tubería modular para construir un modelo de lenguaje grande de razonamiento en el dominio de viajes, fundamentado en un grafo de conocimiento diseñado por expertos, para abordar problemas de precisión y confiabilidad en dominios especializados. El enfoque integra un grafo de conocimiento de viajes, un procedimiento de construcción ascendente para pares de preguntas y respuestas de múltiples saltos, y ajuste fino supervisado para incrustar el conocimiento del dominio como trazas de razonamiento auditables.

arxiv arXiv cs.CL · hace 7 h

MIThinker: Un Pensador Optimizado por Política Plug-and-Play para el Consejo de Entrevista Motivacional

Los investigadores proponen MIThinker, un modelo de pensamiento ligero que genera pensamientos terapéuticos para guiar a los agentes de consejo de Entrevista Motivacional en la selección de estrategias y la generación de respuestas. Para abordar la falta de datos de pensamientos anotados, introducen AugR1-MI, una pipeline automatizada que ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas.

arxiv arXiv cs.CL · hace 7 h

Un marco híbrido para la anotación de letras de canciones basado en la alineación humano-LLM

Este artículo aborda los desafíos del reconocimiento de emociones en las letras de canciones, que a menudo divergen del sentimiento general de la canción, proponiendo un marco de anotación híbrido que optimiza la alineación entre humanos y modelos de lenguaje grandes (LLMs). Los autores presentan un nuevo conjunto de datos a nivel de oraciones para examinar esta alineación y destacan la subjetividad inherente de la tarea.

arxiv arXiv cs.CL · hace 7 h

El Límite de Complejidad: Una Evaluación Multidominio del Razonamiento Secuencial Bajo Escalamiento de Profundidad

El Benchmark del Límite de Complejidad (CCB) evalúa cómo el razonamiento de los modelos de lenguaje se degrada a medida que aumentan los pasos secuenciales requeridos, fijando el contenido semántico mientras varía la profundidad de la tarea de 5 a 50. El estudio revela una decadencia geométrica consistente por paso en tres regímenes distintos: seguimiento de estado espacial fundamentado, manipulación abstracta de punteros simbólicos e inferencia relacional transitiva.

arxiv arXiv cs.CL · hace 7 h

Confianza fabricada: Cómo la consolidación de la memoria convierte los rumores en hechos seguros

La investigación demuestra que los sistemas de memoria de agentes LLM reescriben comentarios casuales o cautelosos como afirmaciones seguras y fechadas, que los agentes posteriormente tratan como hechos verificados. Este proceso permite que la información no verificada eluda las comprobaciones de seguridad sin requerir un atacante activo, ya que el agente responde a la confianza en la formulación en lugar de la atribución de la fuente.