Todos los artículos
arxiv arXiv cs.CL · hace 2 h

RECOM: Compromiso entre validez y discriminación en métricas de QA de Reddit

RECOM evalúa 15,000 preguntas de r/AskReddit con respuestas auténticas de la comunidad publicadas después del entrenamiento del modelo. Muestra que ningún métrica automática logra simultáneamente una fuerte validez y poder discriminatorio, con BERTScore clasificando débilmente a los modelos incluso cuando se controla la longitud. El compromiso surge del diseño de representación, no de diferencias entre modelos, y requiere informar tanto la validez como la discriminación con umbrales mínimos basados en aleatoriedad.

arxiv arXiv cs.CL · hace 2 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de la política

STARE aborda el colapso de la entropía de la política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de la política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.CL · hace 2 h

DreamReasoner-8B: Aprendizaje de currículo por tamaño de bloque para razonamiento con difusión

DreamReasoner-8B es un modelo de difusión por bloques de código abierto que demuestra una sólida capacidad de razonamiento en cadenas largas de pensamiento. Un estudio sistemático muestra que los tamaños pequeños de bloques de entrenamiento preservan la efectividad del razonamiento, mientras que los tamaños grandes degradan el rendimiento. El aprendizaje de currículo por tamaño de bloque transita gradualmente el entrenamiento desde bloques finos hasta gruesos, permitiendo un razonamiento robusto y generalizable en diferentes configuraciones de inferencia, con resultados competitivos frente a Qwen3-8B en benchmarks matemáticos y de código.

arxiv arXiv cs.CL · hace 2 h

Gibbs de Lenguaje Grande para Inferencia Probabilística Estructurada

Gibbs de Lenguaje Grande utiliza distribuciones condicionales de LLM como operadores de transición para el remuestreo iterativo de variables. Este método permite una inferencia estructurada probabilísticamente coherente al evitar sesgos dependientes del orden y lograr una distribución estacionaria que equilibra los condicionales locales. Demuestra eficacia práctica en distribuciones sintéticas, razonamiento consistente y aprendizaje de estructura bayesiana.

arxiv arXiv cs.CL · hace 2 h

Estudio empírico de la adaptación de LLM médicos en QA francés

Un estudio compara el preentrenamiento continuo (CPT), el ajuste fino supervisado (SFT) y su combinación para QA médico en francés. CPT+SFT obtiene los mejores resultados en preguntas de opción múltiple, aunque las mejoras sobre SFT son mínimas y a menudo insignificantes, lo que convierte a SFT en una opción predeterminada rentable. Para preguntas abiertas, CPT mejora las métricas mientras que SFT degrada la calidad de la generación, siendo el ajuste de instrucciones y CPT+SFT favorecidos por evaluaciones basadas en LLM. Los resultados multilingües muestran una transferencia efectiva de benchmarks franceses a ingleses.

arxiv arXiv cs.CL · hace 2 h

Juego ficticio multiagente para la toma de decisiones con posturas entrelazadas

Un nuevo sistema multiagente, Juego Ficticio Multiagente (MAFP), aborda el entrelazamiento de posturas en la toma de decisiones modelando las perspectivas de las partes interesadas como agentes. MAFP utiliza juego ficticio basado en teoría de juegos para mejorar iterativamente las decisiones mediante respuestas óptimas mutuas, superando a los métodos base en fuerza de torneo y robustez en escenarios competitivos.

arxiv arXiv cs.CL · hace 2 h

Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestros en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD en 1.0 y 0.9 puntos, respectivamente, en promedio en benchmarks de razonamiento científico.

arxiv arXiv cs.CL · hace 2 h

LOCUS: Un Corpus de Ordenanzas Locales para Estados Unidos

LOCUS proporciona acceso legible por máquina a casi todos los códigos de ordenanzas municipales y condales públicamente disponibles en EE. UU., cubriendo 9,239 ciudades y condados. Incluye una capa de acceso armonizada a nivel de condado para 2,309 de los 3,144 condados de EE. UU., sirviendo a la mayoría de la población. El corpus, construido con OCR y metadatos para reproducibilidad, permite el análisis a gran escala de las leyes locales, incluyendo dimensiones como la opacidad y el paternalismo, utilizando modelos basados en ModernBERT.

arxiv arXiv cs.CL · hace 2 h

Turing-RL: Aprendizaje de simuladores de usuarios con recompensas de Turing

Turing-RL introduce un método de aprendizaje por refuerzo que utiliza un juez basado en LLM para evaluar qué tan indistinguibles son las respuestas generadas de las entradas reales del usuario. Supera a los métodos base tanto en evaluaciones con LLM como humanas en los dominios de chat y foros de Reddit, demostrando que optimizar la indistinguibilidad mejora el rendimiento del simulador de usuarios.

arxiv arXiv cs.CL · hace 2 h

OmniAgent: Percepción activa nativa para comprensión omnimodal

OmniAgent introduce un ciclo iterativo Observación-Pensamiento-Acción basado en POMDP para la comprensión de video, permitiendo la ejecución de acciones bajo demanda para destilar selectivamente señales audiovisuales en memoria textual persistente. Alcanza rendimiento de vanguardia en diez benchmarks, con un agente de 7B superando a un modelo Qwen2.5-VL-72B 10× más grande en LVBench (50.5% vs. 47.3%).

arxiv arXiv cs.CL · hace 2 h

Detección justa de deterioro cognitivo mediante desprendimiento

Un marco multimodal combina datos de voz, texto e imagen con desprendimiento por inversión de gradiente para reducir el sesgo demográfico en la detección del deterioro cognitivo leve. El método supera las líneas base multilingües y multimodales existentes en TAUKADIAL y PREPARE, con brechas de rendimiento reducidas entre subgrupos por sexo e idioma, y muestra una transferencia mejorada entre conjuntos de datos.

arxiv arXiv cs.CL · hace 2 h

CDDTLDA: Aprendizaje por transferencia para la discriminación de dialectos chinos

Un nuevo marco llamado CDDTLDA utiliza aprendizaje por transferencia y aumento de datos para abordar la discriminación de dialectos chinos con anotaciones limitadas. Entrena un modelo ASR fuente en un gran corpus de dialectos, aplica aumento de velocidad, tono y ruido a los dialectos objetivo de recursos limitados, y ajusta finamente un modelo ASR objetivo utilizando autoatención para capturar características semánticas compartidas. Los resultados experimentales muestran que CDDTLDA supera a los métodos más avanzados en dos corpus de referencia de dialectos chinos.

arxiv arXiv cs.CL · hace 2 h

Optimización de Preferencias Culturales Dirigibles en Modelos de Recompensa

Este artículo presenta SCPO, un nuevo algoritmo de entrenamiento de modelos de recompensa que equilibra diversas preferencias culturales entre subcomunidades. SCPO mejora el rendimiento de los modelos de recompensa de minorías hasta en 7 puntos en dos conjuntos de datos y siete países, mientras que es hasta un 280% más eficiente en el uso de datos de entrenamiento que el ajuste fino con todos los datos. El análisis muestra una reducción del sesgo a través de la evaluación dirigida de las preferencias de la subcomunidad.

arxiv arXiv cs.CL · hace 2 h

BCL: Aprendizaje en contexto bayesiano para extracción de información

BCL es el primer marco que utiliza filtrado de partículas y actualizaciones bayesianas para refinar sistemáticamente las representaciones de etiquetas en la extracción de información. Logra un rendimiento consistente a través de escalas de modelos y se generaliza tanto al etiquetado de secuencias como a la clasificación de relaciones mediante cuatro pasos clave: inicialización, observación, actualización de pesos y remuestreo.

arxiv arXiv cs.CL · hace 2 h

PragReST: Razonamiento contrafáctico auto-reforzante para la comprensión del lenguaje pragmático

PragReST es un marco de aprendizaje autosupervisado que mejora el razonamiento pragmático de los modelos de lenguaje grandes mediante la generación de trazas de razonamiento contrafáctico y el entrenamiento mediante ajuste fino supervisado y aprendizaje por refuerzo. Supera a los modelos base en cuatro benchmarks pragmáticos, mejorando la precisión de Qwen3-8B y Qwen3-14B en un 5.37% y un 5-5.50% respectivamente, y mantiene un rendimiento sólido en tareas de razonamiento sobre conocimiento general y matemático.

arxiv arXiv cs.CL · hace 2 h

Los segmentos de mitad a finales de los artículos de investigación revelan información metodológica clave

Este estudio encuentra que la información metodológica en los artículos de investigación está distribuida de manera desigual, con los segmentos de mitad a finales y los finales mostrando mayor poder discriminativo. Combinar estos segmentos con metadatos bibliográficos mejora la precisión de la clasificación automática del método de investigación en la ciencia de la biblioteca y la información.

arxiv arXiv cs.CL · hace 2 h

PEC-Home: Conjunto de datos simulado para la interpretación de comandos elípticos

PEC-Home es el primer conjunto de datos simulado diseñado para permitir que los asistentes del hogar inteligente interpreten comandos progresivamente elípticos. Los experimentos muestran que incluso con herramientas de historial de diálogo, modelos de lenguaje grandes como GPT-4o no logran una ejecución precisa de comandos a partir de entradas elípticas, lo que destaca una brecha significativa en las capacidades actuales de los asistentes.