Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 25

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador con parámetros compartidos. Este enfoque logra hasta 100 veces mayor eficiencia de parámetros en comparación con los modelos de mundo convencionales al adaptar la profundidad computacional a cada paso de predicción, ofreciendo una nueva dimensión de escalado para la simulación del mundo.

arxiv arXiv cs.CL · hace 1 h En vivo

ZPPO: El maestro en los prompts, no en los gradientes

La Optimización de Política en la Zona Próxima (ZPPO) integra el conocimiento del maestro directamente en los prompts en lugar de en los gradientes de la política. Utiliza Preguntas Candidatas Binarias y Negativas para exponer los modos de fallo del estudiante y amplifica el aprendizaje a través de un búfer de repetición de prompts, logrando un rendimiento superior en preguntas difíciles a lo largo de las escalas del estudiante, especialmente en tamaños de modelo más pequeños.

arxiv arXiv cs.CL · hace 1 h En vivo

Darshana Graph: Un corpus para la filosofía india comparativa

Darshana Graph presenta un corpus de más de 125.000 registros de texto procedentes de fuentes filosóficas hindúes, budistas y jainas. Incluye un subconjunto único de 8.500 registros alineados de 18 comentaristas de cinco escuelas, lo que permite la comparación entre comentaristas. El corpus admite análisis estilométrico y una pipeline de modelos de lenguaje grandes que extrae relaciones entre conceptos filosóficos, revelando patrones de desacuerdo y limitaciones en la extracción.

lab OpenAI News · hace 1 h En vivo

OpenAI presenta los modelos GPT-5.6 Sol, Terra y Luna

OpenAI ha iniciado una vista previa limitada de la serie GPT-5.6, presentando tres nuevos modelos: Sol como el modelo insignia, Terra para trabajo equilibrado cotidiano y Luna para tareas rápidas y asequibles. La empresa planea hacer estos modelos generalmente disponibles en las próximas semanas tras esta fase inicial con socios de confianza.

arxiv arXiv cs.CL · hace 2 h

ReproRepo: Escalando las auditorías de reproducibilidad con GitHub Issues

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador semánticamente relacionado en el 90% de los pares artículo-repositorio sin ejecutar código.

arxiv arXiv cs.CL · hace 2 h

Transformers de Ancho Variable Superan a Arquitecturas Uniformes

Una nueva arquitectura de transformador en forma de \x asigna anchos de capa variables, ensanchando las capas iniciales y finales mientras estrecha las intermedias. Reduce el ancho promedio de la capa, lo que lleva a un 22% menos de FLOPs y un 15% menos de memoria de caché KV, mientras supera a las líneas base uniformes en la pérdida de modelado de lenguaje en modelos de 200M a 2B parámetros.

arxiv arXiv cs.CL · hace 2 h

Filtrado de tokens negativos para RL estable de un solo rollout

Un nuevo enfoque llamado filtrado de tokens negativos permite un entrenamiento estable de un solo rollout al evitar penalizaciones falsas en muestras negativas. El método mejora el rendimiento en tareas agénticas en comparación con las técnicas de RL basadas en grupos, mientras iguala a los métodos basados en grupos en tareas de razonamiento.

arxiv arXiv cs.CL · hace 2 h

Presentación de Traducción Simultánea de Habla de MLLP-VRAIN para IWSLT 2026

El grupo MLLP-VRAIN presenta un sistema SimulST en cascada utilizando los modelos Parakeet y Qwen 3.5 con políticas de caja negra adaptativas. Para En→De, It, Zh, emplea refuerzo de palabras ASR y RAG con ejemplos pretraducidos en la pista de contexto nuevo, logrando una mejora de +5.82 XCOMET-XL en MCIF En→De y una ganancia adicional de +1.03 mediante la integración del contexto.

arxiv arXiv cs.CL · hace 2 h

Prompting suave para la adherencia al idioma en LLMs multimodales

Se propone un enfoque de prompting suave para mejorar la adherencia al idioma en LLMs multimodales sin restricciones estrictas de salida. El método introduce una nueva métrica para cuantificar las violaciones del idioma y evalúa tres estrategias: prompting zero-shot, ajuste fino supervisado y razonamiento Chain-of-Thought. Los resultados muestran efectividad en la reducción de violaciones del idioma mientras se preserva el rendimiento de ASR en múltiples idiomas, considerando compensaciones bajo diferentes restricciones de cómputo.

arxiv arXiv cs.CL · hace 2 h

¿Pueden los modelos de lenguaje descubrir el cero?

Los modelos de lenguaje del tamaño de GPT-2 no pueden descubrir independientemente el cero durante las pruebas, independientemente del preentrenamiento. Sin embargo, el rendimiento mejora significativamente con el entrenamiento en decenas o cientos de ejemplos de cero, y el preentrenamiento de lenguaje reduce los ejemplos requeridos en aproximadamente un 50%.

arxiv arXiv cs.CL · hace 2 h

El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona

Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.

arxiv arXiv cs.CL · hace 2 h

SpeechDx: Benchmark de múltiples tareas para IA de habla clínica

SpeechDx presenta un benchmark a gran escala con 12 conjuntos de datos y 27 tareas en diversas condiciones de salud. Evalúa modelos por etapas de producción del habla y revela que los modelos a gran escala tienen el mejor rendimiento, mientras que los modelos específicos del dominio muestran una generalización limitada entre condiciones clínicas.

media r/LocalLLaMA · hace 2 h

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

media r/LocalLLaMA · hace 2 h

Anunciado el Conjunto de Robots Qwen

Aliyun ha lanzado el Conjunto de Robots Qwen, un nuevo conjunto de herramientas robóticas impulsadas por IA. El conjunto tiene como objetivo permitir a los desarrolladores construir y desplegar robots inteligentes con capacidades mejoradas.

arxiv arXiv cs.CL · hace 2 h

Las historias generadas por LLM muestran baja diversidad

Los modelos de lenguaje grandes producen narrativas más similares entre sí que las historias escritas por humanos. Los modelos de vanguardia convergen en un patrón narrativo genérico, careciendo de la diversidad encontrada en las historias autoradas por humanos. Técnicas comunes como el prompting negativo y el escalado de temperatura no reducen significativamente esta homogeneidad.

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Inducción implícita frente a explícita en LVLMs para comunicación referencial

Dos estudios muestran resultados contradictorios sobre la capacidad de los LVLMs para coordinar expresiones referenciales eficientes. La inducción explícita permite a los modelos lograr una comunicación eficiente, pero la inducción implícita no logra activar este comportamiento, revelando diferencias fundamentales en la comunicación humano-IA.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.