Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 25

Prompting suave para la adherencia al idioma en LLMs multimodales

Se propone un enfoque de prompting suave para mejorar la adherencia al idioma en LLMs multimodales sin restricciones estrictas de salida. El método introduce una nueva métrica para cuantificar las violaciones del idioma y evalúa tres estrategias: prompting zero-shot, ajuste fino supervisado y razonamiento Chain-of-Thought. Los resultados muestran efectividad en la reducción de violaciones del idioma mientras se preserva el rendimiento de ASR en múltiples idiomas, considerando compensaciones bajo diferentes restricciones de cómputo.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Pueden los modelos de lenguaje descubrir el cero?

Los modelos de lenguaje del tamaño de GPT-2 no pueden descubrir independientemente el cero durante las pruebas, independientemente del preentrenamiento. Sin embargo, el rendimiento mejora significativamente con el entrenamiento en decenas o cientos de ejemplos de cero, y el preentrenamiento de lenguaje reduce los ejemplos requeridos en aproximadamente un 50%.

arxiv arXiv cs.CL · hace 1 h En vivo

El rendimiento de Word2Vec en el vocabulario mínimo de Toki Pona

Este estudio evalúa la capacidad de Word2Vec para capturar relaciones semánticas en Toki Pona, un idioma con solo 130 palabras. Usando 1.4 millones de oraciones, encuentra que los tokens no centrales no interrumpen la estructura de incrustación y pueden incluso acercar palabras similares en el espacio vectorial. Los resultados muestran que la efectividad de Word2Vec depende más de los patrones distribucionales que del tamaño del vocabulario, incluso ante una reducción léxica extrema.

arxiv arXiv cs.CL · hace 1 h En vivo

SpeechDx: Benchmark de múltiples tareas para IA de habla clínica

SpeechDx presenta un benchmark a gran escala con 12 conjuntos de datos y 27 tareas en diversas condiciones de salud. Evalúa modelos por etapas de producción del habla y revela que los modelos a gran escala tienen el mejor rendimiento, mientras que los modelos específicos del dominio muestran una generalización limitada entre condiciones clínicas.

media r/LocalLLaMA · hace 1 h En vivo

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

media r/LocalLLaMA · hace 1 h En vivo

Anunciado el Conjunto de Robots Qwen

Aliyun ha lanzado el Conjunto de Robots Qwen, un nuevo conjunto de herramientas robóticas impulsadas por IA. El conjunto tiene como objetivo permitir a los desarrolladores construir y desplegar robots inteligentes con capacidades mejoradas.

arxiv arXiv cs.CL · hace 2 h

Las historias generadas por LLM muestran baja diversidad

Los modelos de lenguaje grandes producen narrativas más similares entre sí que las historias escritas por humanos. Los modelos de vanguardia convergen en un patrón narrativo genérico, careciendo de la diversidad encontrada en las historias autoradas por humanos. Técnicas comunes como el prompting negativo y el escalado de temperatura no reducen significativamente esta homogeneidad.

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Inducción implícita frente a explícita en LVLMs para comunicación referencial

Dos estudios muestran resultados contradictorios sobre la capacidad de los LVLMs para coordinar expresiones referenciales eficientes. La inducción explícita permite a los modelos lograr una comunicación eficiente, pero la inducción implícita no logra activar este comportamiento, revelando diferencias fundamentales en la comunicación humano-IA.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.

arxiv arXiv cs.CL · hace 2 h

MODE-RAG: Evaluación y reducción de alucinaciones en M-RAG

MODE-RAG propone un sistema multiagente que utiliza Energía Libre Variacional para intercalar dinámicamente intervenciones y reducir alucinaciones multimodales en la generación aumentada por recuperación. Integra Búsqueda en Árbol de Monte Carlo y perturbaciones de logit para abordar fabricaciones causales y sycophancy, con agentes dedicados que garantizan verificación factual y estabilidad de formato. Evaluado mediante ModeVent, un subconjunto de MultiVent, el sistema mejora significativamente la robustez frente a fabricaciones lógicas.

github llama.cpp · hace 2 h

Lanzamiento de llama.cpp b9821: Banderas CLI y Binarios Multiplataforma

El proyecto llama.cpp ha lanzado la versión b9821, que introduce actualizaciones de la interfaz de línea de comandos que permiten a los usuarios invocar las banderas --version, --licenses y --help. Este lanzamiento proporciona un conjunto completo de binarios precompilados para macOS, Linux, Android, Windows y openEuler en varios aceleradores de hardware.

arxiv arXiv cs.CL · hace 2 h

PARSE: Defensa de documentos reales para agentes LLM

PARSE reduce el éxito de los ataques de inyección de instrucciones del 25,4 % al 15,6 % en documentos empresariales reales en cinco dominios profesionales, con una mejora estadísticamente significativa (p=0.014) y un 86,9 % de utilidad. Supera a la paráfrasis y utiliza una sanitización consciente del origen para preservar el contenido factual mientras enruta la mayoría de los documentos a través de una ruta ligera.

arxiv arXiv cs.CL · hace 2 h

AIPatient Arena: Evaluación de LLMs en flujos de trabajo clínicos con fundamentación en EHR

AIPatient Arena evalúa modelos de lenguaje grandes en consultas clínicas de extremo a extremo utilizando grafos de conocimiento específicos del paciente con fundamentación en EHR. Evalúa los LLMs en ocho dimensiones de competencia clínica, revelando un fuerte desempeño en habilidades de entrevista, ética y claridad de explicación, pero debilidades persistentes en el manejo de la ambigüedad, cobertura de información y razonamiento diagnóstico, con fallos en el proceso como preguntas repetitivas e historia omitida.

arxiv arXiv cs.CL · hace 2 h

STATEWITNESS: Explicador de activaciones para auditoría de engaño en LLMs

STATEWITNESS introduce un explicador de activaciones que audita el engaño en LLMs de razonamiento leyendo estados ocultos y generando respuestas en lenguaje natural o informes estructurados. Logra una AUROC media de 0.916, superando a los monitores de caja negra y sondas de activación existentes en un 11.6% y 25.0% respectivamente, y proporciona trazas a nivel de consulta, esquema y evidencia para inspección humana.

arxiv arXiv cs.CL · hace 2 h

Sesgo de segundo orden en LLMs: Evaluación del sesgo basado en juicios

Un nuevo estudio identifica un sesgo de segundo orden en los modelos de lenguaje grandes (LLMs): un sesgo social en sus juicios sobre contenido sesgado. Utilizando la epistemología del derecho, la investigación desarrolla una tarea de razonamiento para evaluar si los LLMs aceptan o rechazan textos sesgados basándose en la demografía, revelando sesgos implícitos que varían según el grupo objetivo y evaden las barreras de seguridad. El trabajo introduce dos métricas para cuantificar estos sesgos y aboga por métodos de evaluación más fundamentados teóricamente en PLN.

arxiv arXiv cs.CL · hace 2 h

Degradación y recuperación de la precisión del enrutamiento en sistemas de agentes empresariales

A medida que los catálogos de herramientas de agentes empresariales escalan de 10 a 110 agentes, la precisión del enrutamiento disminuye entre 16 y 23 puntos porcentuales en solicitudes mal especificadas. Un análisis de oráculo identifica brechas de recuperación y confusión, con una preselección basada en embeddings que recupera un F1 de +10--11pp. Un estudio anotado por humanos de 1.435 enunciados confirma la recuperación en el mundo real de +10--17pp a pesar del menor rendimiento absoluto.

arxiv arXiv cs.CL · hace 2 h

Análisis de expresividad del modelado jerárquico en Transformers profundos

Este artículo analiza la expresividad de los transformers profundos utilizando gramáticas de profundidad acotada. Construye transformers con atención posicional donde la profundidad del modelo escala linealmente con la profundidad de la gramática, y el número de neuronas crece cuadráticamente con las reglas de producción. Los resultados respaldan la hipótesis de representación lineal al mostrar que estos modelos pueden codificar estados gramaticales abstractos en subespacios de baja dimensión y separables linealmente.