Todos los artículos
arxiv arXiv cs.CL · hace 4 h

Modelos de Lenguaje de Difusión Multi-Bloque

Los investigadores proponen Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender la generación de texto por difusión de un solo bloque, descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para lograr paralelismo inter-bloque. El enfoque cierra la brecha entre los estados de entrenamiento e inferencia mediante un método post-entrenamiento llamado Forzamiento Maestro Multi-Bloque (MultiTF).

arxiv arXiv cs.CL · hace 5 h

PolicyGuard: Un verificador de sub-agente fundamentado en el diálogo para la adherencia a políticas en agentes LLM

Los investigadores presentan PolicyGuard, un verificador de sub-agente diseñado para mejorar la adherencia a políticas en agentes LLM mediante el razonamiento sobre el contexto completo del diálogo, en lugar de depender de verificaciones externas de argumentos individuales. Este enfoque aborda las limitaciones de los métodos de salvaguarda anteriores que a menudo subestiman la necesidad de correcciones específicas de la conversación y la confirmación explícita del usuario.

arxiv arXiv cs.CL · hace 5 h

Modelo de lenguaje grande de razonamiento orientado al viaje mediante grafos de conocimiento específicos del dominio

Los investigadores proponen una tubería modular para construir un modelo de lenguaje grande de razonamiento en el dominio de viajes, fundamentado en un grafo de conocimiento diseñado por expertos, para abordar problemas de precisión y confiabilidad en dominios especializados. El enfoque integra un grafo de conocimiento de viajes, un procedimiento de construcción ascendente para pares de preguntas y respuestas de múltiples saltos, y ajuste fino supervisado para incrustar el conocimiento del dominio como trazas de razonamiento auditables.

arxiv arXiv cs.CL · hace 5 h

MIThinker: Un Pensador Optimizado por Política Plug-and-Play para el Consejo de Entrevista Motivacional

Los investigadores proponen MIThinker, un modelo de pensamiento ligero que genera pensamientos terapéuticos para guiar a los agentes de consejo de Entrevista Motivacional en la selección de estrategias y la generación de respuestas. Para abordar la falta de datos de pensamientos anotados, introducen AugR1-MI, una pipeline automatizada que ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas.

arxiv arXiv cs.CL · hace 5 h

Un marco híbrido para la anotación de letras de canciones basado en la alineación humano-LLM

Este artículo aborda los desafíos del reconocimiento de emociones en las letras de canciones, que a menudo divergen del sentimiento general de la canción, proponiendo un marco de anotación híbrido que optimiza la alineación entre humanos y modelos de lenguaje grandes (LLMs). Los autores presentan un nuevo conjunto de datos a nivel de oraciones para examinar esta alineación y destacan la subjetividad inherente de la tarea.

arxiv arXiv cs.CL · hace 5 h

El Límite de Complejidad: Una Evaluación Multidominio del Razonamiento Secuencial Bajo Escalamiento de Profundidad

El Benchmark del Límite de Complejidad (CCB) evalúa cómo el razonamiento de los modelos de lenguaje se degrada a medida que aumentan los pasos secuenciales requeridos, fijando el contenido semántico mientras varía la profundidad de la tarea de 5 a 50. El estudio revela una decadencia geométrica consistente por paso en tres regímenes distintos: seguimiento de estado espacial fundamentado, manipulación abstracta de punteros simbólicos e inferencia relacional transitiva.

arxiv arXiv cs.CL · hace 5 h

Confianza fabricada: Cómo la consolidación de la memoria convierte los rumores en hechos seguros

La investigación demuestra que los sistemas de memoria de agentes LLM reescriben comentarios casuales o cautelosos como afirmaciones seguras y fechadas, que los agentes posteriormente tratan como hechos verificados. Este proceso permite que la información no verificada eluda las comprobaciones de seguridad sin requerir un atacante activo, ya que el agente responde a la confianza en la formulación en lugar de la atribución de la fuente.

arxiv arXiv cs.CL · hace 5 h

Decisiones deterministas para IA de alto riesgo

El artículo identifica el "sesgo de intervención" como un modo crítico de fallo en agentes educativos de asesoramiento con modelos de lenguaje grandes de cero disparos, donde recomiendan incorrectamente una acción a pesar de que las políticas oráculo mandan inacción. Utilizando el Conjunto de Datos de Analítica del Aprendizaje de la Open University, el estudio demuestra que GPT-4o de cero disparos presenta una tasa de falsos positivos de 43 puntos porcentuales al día 56, lo que conduce a aproximadamente 4.300 contactos innecesarios con asesores por ciclo para 10.000 estudiantes.

arxiv arXiv cs.LG · hace 6 h

Cuando falla el Top-1: Calibración de monitores LoRA para LMs de difusión enmascarados

Este estudio evalúa la efectividad de la concentración del argmax top-1 como advertencia de colapso durante el ajuste fino de modelos de lenguaje de difusión discreta (DLMs) utilizando Adaptación de Bajo Rango (LoRA). Los autores encuentran que esta métrica tiene una precisión cero porque se satura antes de que comience la optimización, fallando en detectar colapsos reales del entrenamiento.

arxiv arXiv cs.LG · hace 6 h

Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

Los investigadores presentan el Programador de datos holístico (HDS), un nuevo marco de mezcla de datos en línea que aborda las limitaciones de los métodos existentes considerando la composición dinámica de datos desde múltiples dimensiones. HDS formula la programación de datos como un problema de aprendizaje por refuerzo utilizando el algoritmo Soft Actor-Critic y una función de recompensa multiobjetivo.

arxiv arXiv cs.LG · hace 6 h

Muestreador TR-CIE para Coincidencia de Flujo Discreto

Los investigadores proponen el muestreado de Extrapolación de Intensidad Acumulada con Reparametrización Temporal (TR-CIE) para mejorar la calidad del muestreo en la coincidencia de flujo discreto cuando las evaluaciones de función están restringidas. El método combina la reparametrización temporal basada en horarios con una regla de actualización de extrapolación de intensidad acumulada para mitigar la rigidez y mejorar la precisión de la aproximación.

arxiv arXiv cs.LG · hace 6 h

AsyncOPD: ¿Qué tan obsoleta puede ser la destilación on-policy?

Este artículo presenta AsyncOPD, una tubería de destilación on-policy completamente asíncrona que desacopla la generación de rollouts de las actualizaciones del aprendiz para aliviar los cuellos de botella de entrenamiento en el post-entrenamiento de modelos de lenguaje grandes. Los autores proporcionan el primer estudio sistemático de los efectos de la obsolescencia (staleness) en este contexto, demostrando que la divergencia KL directa ponderada por el maestro es robusta frente a rollouts obsoletos, mientras que la KL inversa ponderada por el estudiante es vulnerable.