Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 25

ReproRepo: Escalando las auditorías de reproducibilidad con GitHub Issues

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador semánticamente relacionado en el 90% de los pares artículo-repositorio sin ejecutar código.

arxiv arXiv cs.CL · hace 2 h

Transformers de Ancho Variable Superan a Arquitecturas Uniformes

Una nueva arquitectura de transformador en forma de \x asigna anchos de capa variables, ensanchando las capas iniciales y finales mientras estrecha las intermedias. Reduce el ancho promedio de la capa, lo que lleva a un 22% menos de FLOPs y un 15% menos de memoria de caché KV, mientras supera a las líneas base uniformes en la pérdida de modelado de lenguaje en modelos de 200M a 2B parámetros.

arxiv arXiv cs.CL · hace 2 h

Filtrado de tokens negativos para RL estable de un solo rollout

Un nuevo enfoque llamado filtrado de tokens negativos permite un entrenamiento estable de un solo rollout al evitar penalizaciones falsas en muestras negativas. El método mejora el rendimiento en tareas agénticas en comparación con las técnicas de RL basadas en grupos, mientras iguala a los métodos basados en grupos en tareas de razonamiento.

arxiv arXiv cs.CL · hace 2 h

Presentación de Traducción Simultánea de Habla de MLLP-VRAIN para IWSLT 2026

El grupo MLLP-VRAIN presenta un sistema SimulST en cascada utilizando los modelos Parakeet y Qwen 3.5 con políticas de caja negra adaptativas. Para En→De, It, Zh, emplea refuerzo de palabras ASR y RAG con ejemplos pretraducidos en la pista de contexto nuevo, logrando una mejora de +5.82 XCOMET-XL en MCIF En→De y una ganancia adicional de +1.03 mediante la integración del contexto.

arxiv arXiv cs.CL · hace 2 h

Prompting suave para la adherencia al idioma en LLMs multimodales

Se propone un enfoque de prompting suave para mejorar la adherencia al idioma en LLMs multimodales sin restricciones estrictas de salida. El método introduce una nueva métrica para cuantificar las violaciones del idioma y evalúa tres estrategias: prompting zero-shot, ajuste fino supervisado y razonamiento Chain-of-Thought. Los resultados muestran efectividad en la reducción de violaciones del idioma mientras se preserva el rendimiento de ASR en múltiples idiomas, considerando compensaciones bajo diferentes restricciones de cómputo.

arxiv arXiv cs.CL · hace 2 h

¿Pueden los modelos de lenguaje descubrir el cero?

Los modelos de lenguaje del tamaño de GPT-2 no pueden descubrir independientemente el cero durante las pruebas, independientemente del preentrenamiento. Sin embargo, el rendimiento mejora significativamente con el entrenamiento en decenas o cientos de ejemplos de cero, y el preentrenamiento de lenguaje reduce los ejemplos requeridos en aproximadamente un 50%.

arxiv arXiv cs.CL · hace 2 h

El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona

Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.

arxiv arXiv cs.CL · hace 2 h

SpeechDx: Benchmark de múltiples tareas para IA de habla clínica

SpeechDx presenta un benchmark a gran escala con 12 conjuntos de datos y 27 tareas en diversas condiciones de salud. Evalúa modelos por etapas de producción del habla y revela que los modelos a gran escala tienen el mejor rendimiento, mientras que los modelos específicos del dominio muestran una generalización limitada entre condiciones clínicas.

media r/LocalLLaMA · hace 2 h

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

media r/LocalLLaMA · hace 2 h

Anunciado el Conjunto de Robots Qwen

Aliyun ha lanzado el Conjunto de Robots Qwen, un nuevo conjunto de herramientas robóticas impulsadas por IA. El conjunto tiene como objetivo permitir a los desarrolladores construir y desplegar robots inteligentes con capacidades mejoradas.

arxiv arXiv cs.CL · hace 2 h

Las historias generadas por LLM muestran baja diversidad

Los modelos de lenguaje grandes producen narrativas más similares entre sí que las historias escritas por humanos. Los modelos de vanguardia convergen en un patrón narrativo genérico, careciendo de la diversidad encontrada en las historias autoradas por humanos. Técnicas comunes como el prompting negativo y el escalado de temperatura no reducen significativamente esta homogeneidad.

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Inducción implícita frente a explícita en LVLMs para comunicación referencial

Dos estudios muestran resultados contradictorios sobre la capacidad de los LVLMs para coordinar expresiones referenciales eficientes. La inducción explícita permite a los modelos lograr una comunicación eficiente, pero la inducción implícita no logra activar este comportamiento, revelando diferencias fundamentales en la comunicación humano-IA.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.

arxiv arXiv cs.CL · hace 2 h

MODE-RAG: Evaluación y reducción de alucinaciones en M-RAG

MODE-RAG propone un sistema multiagente que utiliza Energía Libre Variacional para intercalar dinámicamente intervenciones y reducir alucinaciones multimodales en la generación aumentada por recuperación. Integra Búsqueda en Árbol de Monte Carlo y perturbaciones de logit para abordar fabricaciones causales y sycophancy, con agentes dedicados que garantizan verificación factual y estabilidad de formato. Evaluado mediante ModeVent, un subconjunto de MultiVent, el sistema mejora significativamente la robustez frente a fabricaciones lógicas.

github llama.cpp · hace 2 h

Lanzamiento de llama.cpp b9821: Banderas CLI y Binarios Multiplataforma

El proyecto llama.cpp ha lanzado la versión b9821, que introduce actualizaciones de la interfaz de línea de comandos que permiten a los usuarios invocar las banderas --version, --licenses y --help. Este lanzamiento proporciona un conjunto completo de binarios precompilados para macOS, Linux, Android, Windows y openEuler en varios aceleradores de hardware.

arxiv arXiv cs.CL · hace 2 h

PARSE: Defensa de documentos reales para agentes LLM

PARSE reduce el éxito de los ataques de inyección de instrucciones del 25,4 % al 15,6 % en documentos empresariales reales en cinco dominios profesionales, con una mejora estadísticamente significativa (p=0.014) y un 86,9 % de utilidad. Supera a la paráfrasis y utiliza una sanitización consciente del origen para preservar el contenido factual mientras enruta la mayoría de los documentos a través de una ruta ligera.

arxiv arXiv cs.CL · hace 2 h

AIPatient Arena: Evaluación de LLMs en flujos de trabajo clínicos con fundamentación en EHR

AIPatient Arena evalúa modelos de lenguaje grandes en consultas clínicas de extremo a extremo utilizando grafos de conocimiento específicos del paciente con fundamentación en EHR. Evalúa los LLMs en ocho dimensiones de competencia clínica, revelando un fuerte desempeño en habilidades de entrevista, ética y claridad de explicación, pero debilidades persistentes en el manejo de la ambigüedad, cobertura de información y razonamiento diagnóstico, con fallos en el proceso como preguntas repetitivas e historia omitida.