Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Presentación de Traducción Simultánea de Habla de MLLP-VRAIN para IWSLT 2026

El grupo MLLP-VRAIN presenta un sistema SimulST en cascada utilizando los modelos Parakeet y Qwen 3.5 con políticas de caja negra adaptativas. Para En→De, It, Zh, emplea refuerzo de palabras ASR y RAG con ejemplos pretraducidos en la pista de contexto nuevo, logrando una mejora de +5.82 XCOMET-XL en MCIF En→De y una ganancia adicional de +1.03 mediante la integración del contexto.

arxiv arXiv cs.CL · hace 2 h

Prompting suave para la adherencia al idioma en LLMs multimodales

Se propone un enfoque de prompting suave para mejorar la adherencia al idioma en LLMs multimodales sin restricciones estrictas de salida. El método introduce una nueva métrica para cuantificar las violaciones del idioma y evalúa tres estrategias: prompting zero-shot, ajuste fino supervisado y razonamiento Chain-of-Thought. Los resultados muestran efectividad en la reducción de violaciones del idioma mientras se preserva el rendimiento de ASR en múltiples idiomas, considerando compensaciones bajo diferentes restricciones de cómputo.

arxiv arXiv cs.CL · hace 2 h

El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona

Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.

media r/LocalLLaMA · hace 2 h

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.

arxiv arXiv cs.CL · hace 2 h

MODE-RAG: Evaluación y reducción de alucinaciones en M-RAG

MODE-RAG propone un sistema multiagente que utiliza Energía Libre Variacional para intercalar dinámicamente intervenciones y reducir alucinaciones multimodales en la generación aumentada por recuperación. Integra Búsqueda en Árbol de Monte Carlo y perturbaciones de logit para abordar fabricaciones causales y sycophancy, con agentes dedicados que garantizan verificación factual y estabilidad de formato. Evaluado mediante ModeVent, un subconjunto de MultiVent, el sistema mejora significativamente la robustez frente a fabricaciones lógicas.

arxiv arXiv cs.CL · hace 2 h

PARSE: Defensa de documentos reales para agentes LLM

PARSE reduce el éxito de los ataques de inyección de instrucciones del 25,4 % al 15,6 % en documentos empresariales reales en cinco dominios profesionales, con una mejora estadísticamente significativa (p=0.014) y un 86,9 % de utilidad. Supera a la paráfrasis y utiliza una sanitización consciente del origen para preservar el contenido factual mientras enruta la mayoría de los documentos a través de una ruta ligera.

arxiv arXiv cs.CL · hace 2 h

AIPatient Arena: Evaluación de LLMs en flujos de trabajo clínicos con fundamentación en EHR

AIPatient Arena evalúa modelos de lenguaje grandes en consultas clínicas de extremo a extremo utilizando grafos de conocimiento específicos del paciente con fundamentación en EHR. Evalúa los LLMs en ocho dimensiones de competencia clínica, revelando un fuerte desempeño en habilidades de entrevista, ética y claridad de explicación, pero debilidades persistentes en el manejo de la ambigüedad, cobertura de información y razonamiento diagnóstico, con fallos en el proceso como preguntas repetitivas e historia omitida.