Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Presentación de los corpus Hlava Cor y Hlava AD: Variación humana en la coreferencia y las relaciones discursivas

Los investigadores han creado dos nuevos corpus, Hlava Cor y Hlava AD, para explorar la variación humana en la comprensión de la coherencia textual. Estos recursos contienen múltiples anotaciones de textos checos junto con las explicaciones de los anotadores sobre sus elecciones. El primer corpus, Hlava Cor, consta de 1,024 contextos anotados por tres personas para capturar las diferencias en la identificación de la coreferencia. Cubre pronombres, sintagmas nominales completos y adverbios anafóricos a través de varios tipos de texto y categorías gramaticales-semánticas. El segundo corpus, Hlava AD, comprende 512 contextos anotados por cinco anotadores centrados en las relaciones discursivas en construcciones atributivas y no atributivas. Ambos corpus logran un acuerdo interanotador de aproximadamente el 60-65 por ciento. El análisis revela que un menor acuerdo en la coreferencia se correlaciona con el desacuerdo de los modelos automáticos, lo que indica mayor ambigüedad. Los comentarios de los anotadores destacan además los distintos niveles de confianza y las estrategias individuales de lectura.

arxiv arXiv cs.CL · hace 2 h

La modelización del mundo autorizada por agentes alinea el entrenamiento con las necesidades de decisión

El artículo introduce la Modelización del Mundo Autorizada por Agentes (AAWM), un procedimiento de entrenamiento que aborda las limitaciones de los objetivos estándar de modelización del mundo vinculados a la predicción de la siguiente observación. Este enfoque tradicional a menudo omite dinámicas relevantes para la decisión actual de un agente porque la supervisión depende de lo que revela una transición en lugar de lo que se necesita. AAWM construye la supervisión directamente a partir de las necesidades de decisión de la política, haciendo que el agente identifique la comprensión ambiental necesaria en cada estado. La evidencia de transiciones relevantes se recupera a través de trayectorias y se sintetiza en objetivos de entrenamiento que capturan estas dinámicas orientadas a la decisión. Este método alinea el objetivo de aprendizaje con la información específica requerida antes de actuar, en lugar de forzar al modelo a reconstruir la siguiente observación. Los resultados experimentales validan la efectividad de AAWM en múltiples entornos y configuraciones de entrenamiento. Los hallazgos demuestran que los objetivos de modelización del mundo conscientes de la decisión proporcionan una señal de aprendizaje más efectiva que la predicción convencional de la siguiente observación.

arxiv arXiv cs.CL · hace 2 h

OscillaTTS: Sesgo inductivo oscilatorio adaptativo para modelar dinámicas prosódicas agudas en TTS basado en difusión

Los modelos de texto a voz (TTS) basados en difusión han mejorado la calidad del habla, pero tienen dificultades con transiciones prosódicas agudas y variaciones rápidas del tono. Los decodificadores existentes suelen utilizar no linealidades periódicas como la función de activación Snake, que carecen de adaptabilidad para cambios abruptos de amplitud y frecuencia. Para abordar esto, los autores presentan OscillaTTS, un sistema que cuenta con una no linealidad oscilatoria adaptativa. Este componente permite una modulación periódica controlada mientras garantiza la estabilidad de la señal mediante un mecanismo de derivación lineal. El estudio investiga el papel del sesgo inductivo oscilatorio dentro de los decodificadores de TTS basados en difusión. Los experimentos realizados en los conjuntos de datos LJSpeech y Emotional Speech Dataset demuestran mejoras consistentes tanto en evaluaciones objetivas como subjetivas. Estos resultados indican que OscillaTTS modela eficazmente las dinámicas prosódicas expresivas en comparación con métodos anteriores.

arxiv arXiv cs.CL · hace 2 h

Evaluación de la robustez ante dialectos japoneses en modelos de lenguaje grandes basados en habla y texto

Este estudio investiga la robustez dialectal de los modelos de lenguaje grandes (LLMs) y los modelos de lenguaje basados en habla (SLMs) utilizando los dialectos japoneses como caso de prueba. Aunque los sistemas de diálogo basados en LLMs han avanzado, la variación dialectal sigue siendo un desafío significativo, particularmente para el procesamiento de entradas habladas. La investigación define la robustez como la relación entre el rendimiento en entradas dialectales versus las estándar, lo que permite comparaciones justas entre diferentes tipos de modelos. Los experimentos revelan que la robustez de los SLMs se correlaciona directamente con la robustez de sus contrapartes LLMs basadas en texto. Además, el estudio encuentra que el entrenamiento con datos dialectales y el ajuste fino del codificador de habla sirven para mejorar la robustez en los SLMs. Estos hallazgos aclaran cómo las capacidades base de los LLMs afectan el rendimiento de los SLMs e identifican estrategias efectivas para mejorar la comprensión dialectal.

arxiv arXiv cs.CL · hace 2 h

PolicyAlign: Alineación de seguridad basada directamente en políticas para modelos de lenguaje grandes

Los autores presentan PolicyAlign, un marco diseñado para alinear modelos de lenguaje grandes directamente con políticas de seguridad en lenguaje natural, en lugar de depender de costosos datos de supervisión. Este enfoque aborda la discrepancia entre los requisitos de seguridad en rápida evolución y los métodos convencionales de alineación basados en datos. El proceso comienza sintetizando instrucciones que violan la política especificada, seguido de auto-distilación on-policy para internalizar el comportamiento deseado. Para mejorar la estabilidad del entrenamiento y la eficiencia de los datos, el método incorpora Filtrado Sensible a la Política, que selecciona las instrucciones que inducen el mayor cambio conductual. Los experimentos en múltiples modelos demuestran que PolicyAlign mejora consistentemente las métricas de seguridad mientras mantiene bajas tasas de rechazo excesivo y preserva las capacidades generales. El marco también se generaliza eficazmente a dominios especializados como escenarios de seguridad médica, legal y financiera. El código para este enfoque escalable de alineación se ha publicado en https://github.com/Qwen-Applications/PolicyAlign.

arxiv arXiv cs.CL · hace 2 h

El preentrenamiento de codificadores de habla mejorados con traducción mejora los LLMs de habla

Conectar un codificador de habla preentrenado a un Modelo de Lenguaje Grande crea una desalineación estructural porque los codificadores a menudo producen representaciones específicas del idioma mientras que los LLMs operan en un espacio unificado e independiente del idioma. Los autores argumentan que incorporar objetivos de traducción de habla al proceso de preentrenamiento proporciona un mecanismo fundamentado para cerrar esta brecha. A diferencia de la transcripción monolingüe, la traducción obliga al modelo a aprender representaciones independientes de idiomas específicos. El estudio evalúa experimentalmente el impacto de añadir estos objetivos de traducción durante el preentrenamiento del codificador de habla. Los resultados demuestran que este enfoque mejora significativamente la integración multimodal entre las modalidades de habla y texto. En consecuencia, los modelos que utilizan preentrenamiento mejorado con traducción logran un rendimiento superior en varias tareas posteriores de LLMs de habla.

arxiv arXiv cs.CL · hace 2 h

Diseño de arneses y post-entrenamiento en agentes LLM

El artículo examina cómo el diseño del arnés de herramientas impacta el post-entrenamiento de agentes de modelos de lenguaje grandes. Argumenta que, aunque los agentes se someten rutinariamente a post-entrenamiento, la estructura que determina la exposición a las herramientas suele tratarse como un detalle fijo. Los algoritmos existentes asumen típicamente entornos estáticos, ignorando los cambios en las herramientas y tareas durante el despliegue. Para abordar esta brecha, los autores extendieron ALFWorld para tratar el diseño del arnés como una dimensión controlable. Esta extensión permite la evaluación bajo cambios tanto en la tarea como en el entorno de herramientas. El estudio analiza sistemáticamente la influencia del arnés en el post-entrenamiento en configuraciones dentro y fuera de la distribución. Los resultados muestran que el post-entrenamiento consciente del arnés mejora el rendimiento y permite una adaptación robusta a nuevos entornos. Por el contrario, un esfuerzo mínimo de diseño conduce a caídas drásticas del rendimiento bajo cambios ambientales fuertes.

arxiv arXiv cs.CL · hace 2 h

La evaluación Reclaim muestra que la memoria con pérdida es peor que no tener memoria

Un estudio demuestra que la memoria de un modelo de lenguaje que contiene conclusiones incorrectas es más perjudicial que no tener memoria en absoluto. Cuando los modelos retienen valores obsoletos mientras descartan trabajo de apoyo, emiten respuestas confiantes pero erróneas, mientras que las memorias vacías permiten la abstención. Este fenómeno, denominado memoria frágil, se observó en siete modelos donde la dirección del fallo nunca se invirtió independientemente de la tarea o disposición. Los investigadores introdujeron la evaluación reclaim para medir la corregibilidad comprimiendo interacciones y probando si las correcciones recuperan la verdad fundamental sin usar un juez. Los resultados indican que la corregibilidad depende de si la información fuente sobrevive a la compresión en lugar de la capacidad del modelo. Una política centrada en la fuente, que mantiene fuentes recomputables y descarta conclusiones re-derivables, restauró la corregibilidad significativamente mejor que los controles con longitud coincidente. En bucles de memoria encadenados, los errores de fuente descartada corrompen irreparablemente los pasos posteriores, mientras que la corrección propuesta mantiene horizontes de rendimiento acotados. Los hallazgos se replican en tres sistemas desplegados y datos de diálogo reales, con un oráculo construido a mano alcanzando una precisión perfecta.

arxiv arXiv cs.CL · hace 2 h

El Espectro de Generalización: Un Enfoque Cromatográfico para Evaluar Algoritmos de Aprendizaje

Las evaluaciones tradicionales reducen el aprendizaje a una única puntuación agregada, oscureciendo qué tan bien el conocimiento de un ejemplo se generaliza a otros. Los autores introducen el Espectro de Generalización, un marco de evaluación que mide la generalización por muestra mediante el seguimiento del rendimiento en variantes de prueba con distancia de transferencia creciente. Estas variantes van desde la recuperación exacta hasta la transferencia de implementación entre idiomas y la transferencia de contexto bajo reencuadre narrativo. El marco se instancia en programación competitiva utilizando un pipeline de selección y síntesis sembrado con problemas recientes para mitigar la contaminación. Las comparaciones de paradigmas de aprendizaje canónicos muestran que el Aprendizaje por Refuerzo convierte la memorización en near-transfer más eficientemente que las líneas base de Ajuste Fino Supervisado. El aprendizaje in-context exhibe capacidades de transferencia fuertes pero dependientes de la correspondencia en este contexto. Los perfiles diagnósticos revelan que las ganancias locales no necesariamente expanden el radio de generalización para todos los métodos. Específicamente, las abstracciones y pistas principalmente elevan la transferencia local, mientras que el SFT de Referencia preserva una cola de far-transfer más fuerte que RFT. Además, la auto-distilación o el RL asistido por pistas puede reducir la far-transfer incluso cuando mejora la transferencia local.

arxiv arXiv cs.CL · hace 2 h

Explorando representaciones de habla auto-supervisadas en subdialectos del mandarín mediante análisis articulatorio no supervisado

Este estudio investiga cómo se comportan las representaciones fonéticas internas en modelos de habla auto-supervisados bajo variación dialectal fina, abordando las limitaciones de los estudios de sondeo existentes que dependen de corpus curados. Los autores presentan un estudio de caso utilizando una tubería de sondeo completamente no etiquetada para subdialectos del mandarín. Las secuencias de fonemas se generan mediante un reconocedor universal de fonemas independiente del idioma y se mapean a vectores de características articulatorias, permitiendo el sondeo a nivel de fotograma sin anotación manual. Los resultados revelan patrones estructurados en la decodificabilidad de las características articulatorias a través de diferentes dialectos del mandarín. Las características acústicamente salientes como la labialidad y la estridencia permanecen comparativamente estables, mientras que aquellas asociadas con distinciones espectrales más finas muestran una mayor variación dependiente del dialecto. Esta variación está impulsada principalmente por una decodificabilidad elevada para el habla de Pekín en comparación con otros subdialectos. Los análisis capa por capa demuestran dinámicas representacionales distintas para estos grupos de características, lo que sugiere una sensibilidad dialectal desigual a través de las dimensiones articulatorias.

arxiv arXiv cs.CL · hace 2 h

Alineación forzada neuronal completamente diferenciable mediante programación dinámica suave

Los autores proponen una arquitectura neuronal end-to-end y completamente diferenciable diseñada específicamente para la alineación de fonemas, con el fin de abordar la estancación en este campo en comparación con los avances en ASR. El modelo cuenta con un codificador con dos ramas complementarias dedicadas a la verificación de identidad del fonema y la detección de límites. Un decodificador implementado como un módulo entrenable basado en programación dinámica suave diferenciable produce las decisiones finales de alineación. Todo el sistema se optimiza utilizando una pérdida contrastiva novedosa que fomenta una separación clara entre las regiones de fonemas de estado estable y los límites de transición. Los resultados experimentales muestran que el enfoque supera a los métodos actuales de vanguardia en conjuntos de datos de referencia anotados manualmente en inglés. Además, el modelo demuestra fuertes capacidades de generalización a nivel de palabra y un rendimiento efectivo en idiomas no vistos.

arxiv arXiv cs.CL · hace 2 h

PEGASUS Ajustado Alcanza Rendimiento de Última Generación en el Corpus XL-Sum Inglés

Este artículo presenta un método para optimizar la resúmen abstractivo ajustando el modelo PEGASUS en el corpus XL-Sum inglés. El objetivo es superar el rendimiento del modelo base mT5 al generar resúmenes concisos que capturen ideas salientes sin limitarse a extraer oraciones. Los resúmenes generados se evalúan utilizando la métrica ROUGE, que compara las salidas auto-generadas contra referencias creadas por humanos. El estudio afirma que el modelo PEGASUS ajustado alcanza resultados de última generación en este conjunto de datos específico. El análisis cuantitativo revela una mejora del 4.04% en la puntuación ROUGE-1 en comparación con la línea base. Además, el modelo demuestra un aumento significativo del 15.25% en la puntuación ROUGE-2. Finalmente, se reporta una mejora del 3.39% en la puntuación ROUGE-L, confirmando la efectividad del enfoque de ajuste.

arxiv arXiv cs.CL · hace 2 h

El marco de red teaming descubre vulnerabilidades de fidelidad en LLMs mediante una arquitectura multi-rol

Este artículo presenta un marco de red teaming diseñado para descubrir sistemáticamente vulnerabilidades en las salidas de modelos de lenguaje grandes a través de una arquitectura multi-rol. El sistema utiliza modelos objetivo, atacante y jurado para generar prompts adversariales y evaluar rigurosamente la precisión y consistencia de las respuestas. En un estudio de caso sobre evaluación de fidelidad, los prompts adversariales explotadores aumentaron la tasa de éxito del ataque hasta en un 7.9% en tareas de preguntas y respuestas. La investigación demuestra que las decisiones de diseño arquitectónico suelen superar a la escalado de parámetros al determinar la seguridad del modelo e identifica cómo las restricciones estructurales moldean los patrones de vulnerabilidad. El marco muestra adaptabilidad en diversas tareas de evaluación, desde preguntas y respuestas en inglés hasta resúmenes en árabe. Sin embargo, el enfoque enfrenta desafíos para automatizar completamente la generación de prompts adversariales entre diferentes idiomas. Además, los experimentos revelan limitaciones en la detección de formas sutiles de infidelidad que no se manifiestan como contradicciones factuales explícitas.

arxiv arXiv cs.CL · hace 2 h

Calibración y robustez adversaria de la puntuación automática de ASR

Este estudio evalúa la fiabilidad de los jueces automatizados utilizados para medir las tasas de éxito de ataques en jailbreaks de LLM comparándolos con votos mayoritarios humanos. Utilizando 596 completados etiquetados por humanos de HarmBench, los autores encuentran que los clasificadores de seguridad dedicados sobre-marcan con alta recall pero menor precision, mientras que los LLM-as-judges exhiben una recall errática que oscila entre 0.06 y 0.65. Estas discrepancias causan una variabilidad significativa en el ASR reportado dependiendo de qué familia de judge se emplee. La investigación también destaca diferencias marcadas en la robustez, mostrando que los wrappers de framing benigno pueden invertir las decisiones del LLM-judge entre el 57% y el 100% de las veces. En contraste, los clasificadores dedicados resisten tales ataques superficiales pero permanecen vulnerables a ataques GCG white-box, que invirtieron el 70% de los true positives confiantes a pesar de un pequeño presupuesto de optimización. Una auditoría con dos anotadores confirmó que estas inversiones adversarias preservaron el contenido dañino subyacente. En consecuencia, muchas métricas ASR actuales se consideran poco fiables bajo presión deliberada o condiciones promedio. Los autores recomiendan reportar la precision y recall del judge en datos etiquetados por humanos e incluir verificaciones adversarias en investigaciones futuras.

arxiv arXiv cs.CL · hace 2 h

STC mejora el servicio al cliente en árabe mediante análisis de sentimiento con MARBERT

Saudi Telecom Company (STC) tiene como objetivo mejorar la satisfacción del usuario aprovechando los comentarios de Twitter para el análisis de sentimiento. El estudio aborda la brecha en el Procesamiento de Lenguaje Natural en árabe entrenando el modelo MARBERT en un conjunto de datos específico de 24,513 tweets. Esta colección incluye 1,437 tweets positivos, 13,828 negativos y 5,694 neutrales, junto con 1,221 sarcásticos y 2,297 indeterminados. El objetivo principal es analizar estos sentimientos para mejorar la capacidad de respuesta del servicio al cliente de STC. El rendimiento se evaluó utilizando métricas de f1-score, precisión y recall para garantizar una detección robusta de spam y sentimiento. Los resultados indican que el esquema propuesto ofrece una precisión prometedora en comparación con las técnicas existentes en la literatura.

arxiv arXiv cs.CL · hace 2 h

Factores conductuales de la incongruencia entre calificación y sentimiento en reseñas turísticas de Sri Lanka

Este estudio investiga la incongruencia entre las calificaciones por estrellas y los sentimientos expresados en las reseñas escritas dentro de las reseñas de atracciones turísticas de Sri Lanka. Analizando un conjunto de datos de 16,156 reseñas desde 2010 hasta 2023, los investigadores emplearon una pipeline basada en transformers para derivar el sentimiento textual independientemente de las calificaciones asignadas. El análisis revela que el 18.6% de las reseñas presentan incongruencia, impulsada principalmente por comportamientos de Calificador Conservador y de 5 Estrellas Obligatorio. Estas discrepancias varían según el tipo de recinto, con los museos mostrando las tasas más altas de divergencia. Las pruebas estadísticas, la regresión logística, Random Forest y el análisis SHAP identifican el tipo de recinto, la experiencia del revisor, la longitud de la reseña y los factores temporales como contribuyentes clave a este fenómeno. Los hallazgos demuestran que las calificaciones por estrellas no son intercambiables con el sentimiento textual y requieren validación antes de ser utilizadas como etiquetas ground-truth en tareas de NLP.

arxiv arXiv cs.CL · hace 2 h

Cliff Tokens: Identificando gatillos de fallo de un solo token en el razonamiento matemático de LLM

Los investigadores introducen el concepto de cliff tokens para identificar gatillos de fallo específicos de un solo token en modelos de lenguaje grandes durante tareas de razonamiento matemático. A diferencia del trabajo previo que analiza fallos a nivel de paso o oración, este método señala el token exacto donde las caídas potenciales disminuyen significativamente utilizando un umbral adaptativo basado en una prueba z. El estudio evalúa siete modelos en tres conjuntos de datos: GSM1K, MATH500 y AIME 2025. Eliminar el primer cliff token y realizar muestreo permite recuperar pass@64 hasta 1.0, mientras que mantenerlo limita la recuperación entre 0.71 y 1.00. Los autores proponen una taxonomía que clasifica los cliffs como deterministas, inciertos o muestreados fuera (sampled-off) basándose en la elección greedy y la entropía del token. Esta clasificación se generaliza a través de diferentes escalas de modelos y exhibe características probabilísticas distintas para cada tipo. Además, el equipo valida esta taxonomía mediante optimización de preferencia de un solo token conocida como Cliff-DPO. Entrenado en GSM8K, Cliff-DPO mejora la precisión hasta +6.6 en los benchmarks. La optimización resulta efectiva para cliffs inciertos y muestreados fuera, pero no produce mejoras para los deterministas.

arxiv arXiv cs.CL · hace 2 h

El Benchmark SWE-Pro Revela una Brecha Significativa Entre los LLM y la Optimización de Software Experta

El benchmark SWE-Pro aborda la falta de marcos de evaluación realistas para la optimización del rendimiento del software mediante la introducción de un conjunto de datos a nivel de repositorio derivado de 102 optimizaciones escritas por expertos. A diferencia de los benchmarks anteriores que simplifican en exceso las tareas, SWE-Pro empareja cada tarea con pruebas parametrizadas para evaluar el tiempo de ejecución, la memoria pico y el Uso de Memoria Ponderado por Tiempo bajo condiciones conscientes del ruido. El estudio revela que los Modelos de Lenguaje Actuales actuales luchan significativamente con estos requisitos complejos, mostrando ganancias de tiempo de ejecución insignificantes y optimizaciones de memoria casi inexistentes. En marcado contraste, las implementaciones expertas lograron una aceleración agregada de 15.5x y una reducción de memoria pico de 171.3x a través de las tareas del benchmark. Se observaron mejoras escritas por expertos en el 91.2% de las tareas para el tiempo de ejecución y en el 65.7% para la memoria pico. Estos hallazgos exponen una brecha sustancial entre las capacidades actuales de los LLM y las demandas de la ingeniería a nivel experto.

arxiv arXiv cs.CL · hace 2 h

Seguridad y privacidad en la generación aumentada por recuperación: arquitecturas, amenazas, defensas y direcciones futuras

Esta revisión examina los desafíos de seguridad y privacidad inherentes a los sistemas de Generación Aumentada por Recuperación (RAG) en paradigmas centralizados, en el dispositivo, federados e híbridos. Presenta una taxonomía unificada de superficies de amenaza que abarcan las etapas de recuperación, construcción del contexto y generación. El análisis cubre clases específicas de ataques, incluyendo inferencia de membresía, inferencia de índices, envenenamiento, filtrado de gradientes y colusión. Se identifican riesgos de información sensible dentro de los índices de recuperación, registros de consultas, construcción del contexto y actualizaciones federadas. La manipulación adversaria de las bases de conocimiento se destaca como un factor clave que socava la confianza en las salidas generadas. El artículo revisa defensas arquitectónicas, algorítmicas y criptográficas mientras aborda los compromisos entre privacidad y utilidad. Finalmente, delimita los desafíos de investigación abiertos para construir sistemas RAG confiables y resilientes.

arxiv arXiv cs.CL · hace 2 h

BiPACE: Optimización de políticas guiada por bisimulación con estimación de contrafactuales de acción para agentes LLM

Los autores identifican una discrepancia fundamental en el crédito de estado-acción en el RL basado en grupos paso a paso para agentes LLM de largo horizonte. Los estimadores actuales sufren de una partición de estados demasiado fina y un promedio de acciones demasiado grueso, lo que viola los supuestos de equivalencia para la asignación de crédito. Se introduce BiPACE como un estimador de ventaja plug-in que corrige estos problemas sin añadir críticos ni rollouts adicionales. Agrupa pasos por distancia coseno en la geometría del estado oculto del actor para reducir grupos singleton y recentra las recompensas utilizando líneas base de pares condicionadas a la acción. En ALFWorld con Qwen2.5-7B, BiPACE_Q eleva el éxito de validación de 90.8 a 97.1±0.9, cruzando el umbral del 95% en cada semilla. También mejora el rendimiento en Qwen2.5-1.5B y logra ganancias en WebShop y TextCraft sobre GRPO y GiGPO. El método incurre solo en un exceso del 11.3% del tiempo de pared de un paso de entrenamiento mientras cambia la unidad de comparación a una equivalencia conductual aproximada.