Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador con parámetros compartidos. Este enfoque logra hasta 100 veces mayor eficiencia de parámetros en comparación con los modelos de mundo convencionales al adaptar la profundidad computacional a cada paso de predicción, ofreciendo una nueva dimensión de escalado para la simulación del mundo.

arxiv arXiv cs.CL · hace 1 h En vivo

ZPPO: El maestro en los prompts, no en los gradientes

La Optimización de Política en la Zona Próxima (ZPPO) integra el conocimiento del maestro directamente en los prompts en lugar de en los gradientes de la política. Utiliza Preguntas Candidatas Binarias y Negativas para exponer los modos de fallo del estudiante y amplifica el aprendizaje a través de un búfer de repetición de prompts, logrando un rendimiento superior en preguntas difíciles a lo largo de las escalas del estudiante, especialmente en tamaños de modelo más pequeños.

arxiv arXiv cs.CL · hace 1 h En vivo

Darshana Graph: Un corpus para la filosofía india comparativa

Darshana Graph presenta un corpus de más de 125.000 registros de texto procedentes de fuentes filosóficas hindúes, budistas y jainas. Incluye un subconjunto único de 8.500 registros alineados de 18 comentaristas de cinco escuelas, lo que permite la comparación entre comentaristas. El corpus admite análisis estilométrico y una pipeline de modelos de lenguaje grandes que extrae relaciones entre conceptos filosóficos, revelando patrones de desacuerdo y limitaciones en la extracción.

arxiv arXiv cs.CL · hace 2 h

Presentación de Traducción Simultánea de Habla de MLLP-VRAIN para IWSLT 2026

El grupo MLLP-VRAIN presenta un sistema SimulST en cascada utilizando los modelos Parakeet y Qwen 3.5 con políticas de caja negra adaptativas. Para En→De, It, Zh, emplea refuerzo de palabras ASR y RAG con ejemplos pretraducidos en la pista de contexto nuevo, logrando una mejora de +5.82 XCOMET-XL en MCIF En→De y una ganancia adicional de +1.03 mediante la integración del contexto.

arxiv arXiv cs.CL · hace 2 h

Prompting suave para la adherencia al idioma en LLMs multimodales

Se propone un enfoque de prompting suave para mejorar la adherencia al idioma en LLMs multimodales sin restricciones estrictas de salida. El método introduce una nueva métrica para cuantificar las violaciones del idioma y evalúa tres estrategias: prompting zero-shot, ajuste fino supervisado y razonamiento Chain-of-Thought. Los resultados muestran efectividad en la reducción de violaciones del idioma mientras se preserva el rendimiento de ASR en múltiples idiomas, considerando compensaciones bajo diferentes restricciones de cómputo.

arxiv arXiv cs.CL · hace 2 h

El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona

Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.

media r/LocalLLaMA · hace 2 h

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.