Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 25

arxiv arXiv cs.CL · hace 2 h

Operacionalización de la ontología para la intraducibilidad en PLN

Se presenta una nueva ontología y taxonomía de estrategias de compensación para casos intraducibles, lo que permite un análisis controlado de la traducción automática. Un conjunto de datos multilingüe empareja oraciones intraducibles con traducciones basadas en estrategias, mostrando la preferencia humana por las salidas que incluyen contexto explicativo, conocido como la estrategia de compensación de anotación.

arxiv arXiv cs.CL · hace 2 h

Inducción implícita frente a explícita en LVLMs para comunicación referencial

Dos estudios muestran resultados contradictorios sobre la capacidad de los LVLMs para coordinar expresiones referenciales eficientes. La inducción explícita permite a los modelos lograr una comunicación eficiente, pero la inducción implícita no logra activar este comportamiento, revelando diferencias fundamentales en la comunicación humano-IA.

arxiv arXiv cs.CL · hace 2 h

Las imágenes engañan, la consistencia habla: Desacoplar la atención espacial de la fiabilidad en modelos de visión y lenguaje

Un estudio desafía la suposición de que las señales de atención visual indican fiabilidad en los modelos de visión y lenguaje. Encuentra una correlación cercana a cero entre la atención espacial y la precisión, mostrando en cambio que la autoconsistencia a través de las rutas de razonamiento es un predictor más fuerte de la verdad. La fiabilidad se explica mejor por la dinámica de generación y las distribuciones del estado interno, no por los patrones de atención visual.

arxiv arXiv cs.CL · hace 2 h

NarrativeWorldBench y N-VSSM para Drama de Audio a Largo Plazo

NarrativeWorldBench evalúa 21 LLMs en nueve métricas de estructura narrativa a lo largo de horizontes de 10 a 200 episodios, con soporte multilingüe en hindi, tamil, telugu y marathi. N-VSSM, un modelo de mundo latente que utiliza Mamba-2, alcanza un F1 de plot-beat de al menos 0.84 en todos los horizontes con un 75% menos de cómputo que los modelos de frontera cerrada y supera a Claude Opus 4.5 en consistencia de arcos largos y controlabilidad en un estudio con escritores profesionales.

arxiv arXiv cs.CL · hace 2 h

Sesgo de recomendación de LLM y dinámicas de competencia de marcas

Las marcas conocidas dominan las recomendaciones de LLM en un 100% cuando los productos son idénticos, pero esta ventaja desaparece con un simple margen de +0.1 estrellas. Las afirmaciones de marketing de estilo autoritario, como evidencia clínica fabricada, rompen este dominio con un exceso de sesgo de +0.17 puntos de calificación, con modelos que responden de manera diferente. Surge un dilema social en la competencia entre múltiples marcas, donde la optimización colectiva reduce el pago individual de +0.802 a +0.007 y elimina las recomendaciones para marcas que no participan.

arxiv arXiv cs.CL · hace 2 h

MODE-RAG: Evaluación y reducción de alucinaciones en M-RAG

MODE-RAG propone un sistema multiagente que utiliza Energía Libre Variacional para intercalar dinámicamente intervenciones y reducir alucinaciones multimodales en la generación aumentada por recuperación. Integra Búsqueda en Árbol de Monte Carlo y perturbaciones de logit para abordar fabricaciones causales y sycophancy, con agentes dedicados que garantizan verificación factual y estabilidad de formato. Evaluado mediante ModeVent, un subconjunto de MultiVent, el sistema mejora significativamente la robustez frente a fabricaciones lógicas.

github llama.cpp · hace 2 h

Lanzamiento de llama.cpp b9821: Banderas CLI y Binarios Multiplataforma

El proyecto llama.cpp ha lanzado la versión b9821, que introduce actualizaciones de la interfaz de línea de comandos que permiten a los usuarios invocar las banderas --version, --licenses y --help. Este lanzamiento proporciona un conjunto completo de binarios precompilados para macOS, Linux, Android, Windows y openEuler en varios aceleradores de hardware.

arxiv arXiv cs.CL · hace 2 h

PARSE: Defensa de documentos reales para agentes LLM

PARSE reduce el éxito de los ataques de inyección de instrucciones del 25,4 % al 15,6 % en documentos empresariales reales en cinco dominios profesionales, con una mejora estadísticamente significativa (p=0.014) y un 86,9 % de utilidad. Supera a la paráfrasis y utiliza una sanitización consciente del origen para preservar el contenido factual mientras enruta la mayoría de los documentos a través de una ruta ligera.

arxiv arXiv cs.CL · hace 2 h

AIPatient Arena: Evaluación de LLMs en flujos de trabajo clínicos con fundamentación en EHR

AIPatient Arena evalúa modelos de lenguaje grandes en consultas clínicas de extremo a extremo utilizando grafos de conocimiento específicos del paciente con fundamentación en EHR. Evalúa los LLMs en ocho dimensiones de competencia clínica, revelando un fuerte desempeño en habilidades de entrevista, ética y claridad de explicación, pero debilidades persistentes en el manejo de la ambigüedad, cobertura de información y razonamiento diagnóstico, con fallos en el proceso como preguntas repetitivas e historia omitida.

arxiv arXiv cs.CL · hace 2 h

STATEWITNESS: Explicador de activaciones para auditoría de engaño en LLMs

STATEWITNESS introduce un explicador de activaciones que audita el engaño en LLMs de razonamiento leyendo estados ocultos y generando respuestas en lenguaje natural o informes estructurados. Logra una AUROC media de 0.916, superando a los monitores de caja negra y sondas de activación existentes en un 11.6% y 25.0% respectivamente, y proporciona trazas a nivel de consulta, esquema y evidencia para inspección humana.

arxiv arXiv cs.CL · hace 2 h

Sesgo de segundo orden en LLMs: Evaluación del sesgo basado en juicios

Un nuevo estudio identifica un sesgo de segundo orden en los modelos de lenguaje grandes (LLMs): un sesgo social en sus juicios sobre contenido sesgado. Utilizando la epistemología del derecho, la investigación desarrolla una tarea de razonamiento para evaluar si los LLMs aceptan o rechazan textos sesgados basándose en la demografía, revelando sesgos implícitos que varían según el grupo objetivo y evaden las barreras de seguridad. El trabajo introduce dos métricas para cuantificar estos sesgos y aboga por métodos de evaluación más fundamentados teóricamente en PLN.

arxiv arXiv cs.CL · hace 2 h

Degradación y recuperación de la precisión del enrutamiento en sistemas de agentes empresariales

A medida que los catálogos de herramientas de agentes empresariales escalan de 10 a 110 agentes, la precisión del enrutamiento disminuye entre 16 y 23 puntos porcentuales en solicitudes mal especificadas. Un análisis de oráculo identifica brechas de recuperación y confusión, con una preselección basada en embeddings que recupera un F1 de +10--11pp. Un estudio anotado por humanos de 1.435 enunciados confirma la recuperación en el mundo real de +10--17pp a pesar del menor rendimiento absoluto.

arxiv arXiv cs.CL · hace 2 h

Análisis de expresividad del modelado jerárquico en Transformers profundos

Este artículo analiza la expresividad de los transformers profundos utilizando gramáticas de profundidad acotada. Construye transformers con atención posicional donde la profundidad del modelo escala linealmente con la profundidad de la gramática, y el número de neuronas crece cuadráticamente con las reglas de producción. Los resultados respaldan la hipótesis de representación lineal al mostrar que estos modelos pueden codificar estados gramaticales abstractos en subespacios de baja dimensión y separables linealmente.

arxiv arXiv cs.CL · hace 2 h

Los LLM superan a los humanos en la predicción del próximo hablante

Los modelos de lenguaje grandes superaron a los humanos y a los modelos supervisados en la predicción del próximo hablante utilizando el corpus AMI, a pesar de carecer de datos audiovisuales y entrenamiento por dominio. Los LLM multimodales superaron a los LLM basados en texto en la detección de destinatarios y cambios de turno, pero aún quedaron por debajo del rendimiento humano, lo que destaca los desafíos al utilizar señales audiovisuales crudas. Los estudios de ablation muestran que el contexto conversacional es crucial, especialmente para la predicción del próximo hablante, con humanos y LLM luchando durante cambios frecuentes de turno.

arxiv arXiv cs.CL · hace 2 h

Las características de LLM pueden perjudicar a los GNNs mediante interferencia por concatenación

Concatenar características generadas por LLM a redes neuronales gráficas reduce sistemáticamente la precisión en benchmarks homofílicos, con una caída de la precisión en PubMed de -17.0 ± 0.3 pp. Esta degradación está vinculada a la discriminabilidad del LLM por sí solo (Delta_sig), que se correlaciona fuertemente con el costo de concatenación (r² = 0.38) y muestra una relación de ley de potencia con la dimensión de las características y el número de nodos (r² = 0.97), particularmente en escenarios de bajo Delta_sig y bajo número de nodos.

arxiv arXiv cs.CL · hace 2 h

Los LLMs podados fallan en la generación abierta a pesar de superar las preguntas de opción múltiple

Los modelos de lenguaje grandes podados suelen aprobar pruebas de opción múltiple pero fallan al generar respuestas correctas en respuestas abiertas. Esta 'ilusión del benchmark' muestra que las respuestas no se eliminan, sino que se degradan, reapareciendo solo con técnicas avanzadas de generación como beam search o muestreo. Los benchmarks estándar sobreestiman la usabilidad práctica de los modelos comprimidos, destacando un punto ciego crítico en la evaluación.

arxiv arXiv cs.CL · hace 2 h

OPD-Evolver: Destilación on-policy para la evolución holística de agentes

OPD-Evolver introduce un marco de co-evolución lento-rápido que permite a los agentes seleccionar, actuar y reutilizar experiencias mediante auto-destilación on-policy. Supera a los métodos existentes basados en memoria y entrenamiento hasta en un 11.5% y un 5.8% respectivamente, y demuestra capacidad para desafiar modelos a gran escala como Qwen3.5-397B-A17B y Step-3.5-Flash.

arxiv arXiv cs.CL · hace 2 h

Perturbación de prompts para una evaluación fiable de LLM

Un nuevo marco utiliza la perturbación de prompts para identificar y filtrar comparaciones por pares estructuralmente inconsistentes en evaluaciones de modelos de lenguaje grandes. Al incorporar verificaciones de consistencia a nivel de grafo antes de la agregación de clasificaciones, el método reduce las preferencias cíclicas y mejora la fiabilidad de las clasificaciones de LLM.

arxiv arXiv cs.CL · hace 2 h

SkillMigrator permite la transferencia de habilidades web entre sitios mediante coincidencia de diseño

SkillMigrator aprende habilidades web reutilizables al coincidir con estructuras de diseño en lugar de referencias específicas a elementos. Almacena cada habilidad como un patrón de interacción transferible (TIP) con un boceto estructural, lo que permite una reutilización eficiente de habilidades entre sitios. En comparación con los métodos más avanzados, reduce el conteo promedio de acciones del LLM en un 8-10% en WebArena y Mind2Web a tasas de éxito equivalentes.

arxiv arXiv cs.CL · hace 2 h

MambaCount: Conteo de objetos eficiente guiado por texto

MambaCount introduce un bloque de dualidad de espacio de estados espacialmente disperso para habilitar el conteo abierto de objetos guiado por texto. Aborda las limitaciones del modelado causal y la alta entropía en las respuestas de tokens espaciales, logrando resultados de vanguardia en FSC-147 con un MAE de prueba de 12.23 mientras mantiene una complejidad lineal.