Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 8 / 25

arxiv arXiv cs.CL · hace 2 h

Los LLM superan a los humanos en la predicción del próximo hablante

Los modelos de lenguaje grandes superaron a los humanos y a los modelos supervisados en la predicción del próximo hablante utilizando el corpus AMI, a pesar de carecer de datos audiovisuales y entrenamiento por dominio. Los LLM multimodales superaron a los LLM basados en texto en la detección de destinatarios y cambios de turno, pero aún quedaron por debajo del rendimiento humano, lo que destaca los desafíos al utilizar señales audiovisuales crudas. Los estudios de ablation muestran que el contexto conversacional es crucial, especialmente para la predicción del próximo hablante, con humanos y LLM luchando durante cambios frecuentes de turno.

arxiv arXiv cs.CL · hace 2 h

Las características de LLM pueden perjudicar a los GNNs mediante interferencia por concatenación

Concatenar características generadas por LLM a redes neuronales gráficas reduce sistemáticamente la precisión en benchmarks homofílicos, con una caída de la precisión en PubMed de -17.0 ± 0.3 pp. Esta degradación está vinculada a la discriminabilidad del LLM por sí solo (Delta_sig), que se correlaciona fuertemente con el costo de concatenación (r² = 0.38) y muestra una relación de ley de potencia con la dimensión de las características y el número de nodos (r² = 0.97), particularmente en escenarios de bajo Delta_sig y bajo número de nodos.

arxiv arXiv cs.CL · hace 2 h

Los LLMs podados fallan en la generación abierta a pesar de superar las preguntas de opción múltiple

Los modelos de lenguaje grandes podados suelen aprobar pruebas de opción múltiple pero fallan al generar respuestas correctas en respuestas abiertas. Esta 'ilusión del benchmark' muestra que las respuestas no se eliminan, sino que se degradan, reapareciendo solo con técnicas avanzadas de generación como beam search o muestreo. Los benchmarks estándar sobreestiman la usabilidad práctica de los modelos comprimidos, destacando un punto ciego crítico en la evaluación.

arxiv arXiv cs.CL · hace 2 h

OPD-Evolver: Destilación on-policy para la evolución holística de agentes

OPD-Evolver introduce un marco de co-evolución lento-rápido que permite a los agentes seleccionar, actuar y reutilizar experiencias mediante auto-destilación on-policy. Supera a los métodos existentes basados en memoria y entrenamiento hasta en un 11.5% y un 5.8% respectivamente, y demuestra capacidad para desafiar modelos a gran escala como Qwen3.5-397B-A17B y Step-3.5-Flash.

arxiv arXiv cs.CL · hace 2 h

Perturbación de prompts para una evaluación fiable de LLM

Un nuevo marco utiliza la perturbación de prompts para identificar y filtrar comparaciones por pares estructuralmente inconsistentes en evaluaciones de modelos de lenguaje grandes. Al incorporar verificaciones de consistencia a nivel de grafo antes de la agregación de clasificaciones, el método reduce las preferencias cíclicas y mejora la fiabilidad de las clasificaciones de LLM.

arxiv arXiv cs.CL · hace 2 h

SkillMigrator permite la transferencia de habilidades web entre sitios mediante coincidencia de diseño

SkillMigrator aprende habilidades web reutilizables al coincidir con estructuras de diseño en lugar de referencias específicas a elementos. Almacena cada habilidad como un patrón de interacción transferible (TIP) con un boceto estructural, lo que permite una reutilización eficiente de habilidades entre sitios. En comparación con los métodos más avanzados, reduce el conteo promedio de acciones del LLM en un 8-10% en WebArena y Mind2Web a tasas de éxito equivalentes.

arxiv arXiv cs.CL · hace 2 h

MambaCount: Conteo de objetos eficiente guiado por texto

MambaCount introduce un bloque de dualidad de espacio de estados espacialmente disperso para habilitar el conteo abierto de objetos guiado por texto. Aborda las limitaciones del modelado causal y la alta entropía en las respuestas de tokens espaciales, logrando resultados de vanguardia en FSC-147 con un MAE de prueba de 12.23 mientras mantiene una complejidad lineal.

arxiv arXiv cs.CL · hace 2 h

EnvRL: Aprovechando la dinámica del entorno en RL agéntico

EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámicas inversas. Logra ganancias significativas en las tasas de éxito en benchmarks de largo horizonte, mejorando el rendimiento de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop cuando se entrena con GRPO.

arxiv arXiv cs.CL · hace 2 h

Entorno de entrenamiento diseñado por LLM para RL con razonamiento multiagente

El marco LLM-as-Environment-Engineer utiliza LLMs para rediseñar automáticamente entornos de entrenamiento en aprendizaje por refuerzo analizando trayectorias de fallo y datos contextuales. En el banco de pruebas MAPF-FrozenLake, supera a LLMs propietarios más grandes y a las líneas base de entornos fijos, con Qwen3-4B logrando el mejor rendimiento agregado. El análisis muestra que la evidencia de fallo y las configuraciones de trabajo preservadas son clave, y la checkpoint actual de RL funciona mejor que el modelo base como ingeniero de entornos.

arxiv arXiv cs.CL · hace 2 h

SwiftTrans mejora la eficiencia de traducción de código en LLM

SwiftTrans aborda las brechas de eficiencia en tiempo de ejecución en la traducción de código basada en LLM mediante la introducción de Exploración Multi-Perspectiva y Selección Consciente de Diferencias. El marco extiende CodeNet, F2SBench e introduce SwiftBench para evaluar el rendimiento en tiempo de ejecución, mostrando mejoras consistentes tanto en corrección como en eficiencia a través de las pruebas.

arxiv arXiv cs.CL · hace 2 h

SuCo: Razonamiento Adaptativo Continuo Guiado por Suficiencia

SuCo introduce el CoT Mínimo Suficiente (MSC) como el prefijo de razonamiento más corto adecuado para respuestas correctas. Emplea un marco de entrenamiento en dos etapas—Ajuste Fino Alineado con MSC y Optimización de Política Consciente de la Suficiencia—para reducir la longitud del razonamiento mientras se mantiene o mejora la precisión en tareas de matemáticas, código y ciencias.

arxiv arXiv cs.CL · hace 2 h

Los LLMs infieren el contexto cultural pero fallan al aplicarlo

Los LLMs pueden detectar indicios culturales y recordar convenciones culturales, pero a menudo fallan al adaptar las respuestas en consecuencia. Sus respuestas permanecen sesgadas hacia su cultura nativa a menos que se les solicite explícitamente aplicar el contexto cultural de manera secuencial.

arxiv arXiv cs.CL · hace 2 h

EComAgentBench: Evaluación de Agentes de Compra con Intención Oculta

EComAgentBench introduce un benchmark de 662 tareas reales de Amazon que dispersan los requisitos del comprador entre la consulta, el perfil y la aclaración. Los agentes deben descubrir la intención oculta, verificar candidatos con evidencia y comprometerse a un producto dentro de 100 llamadas a herramientas, con rúbricas tipadas que atribuyen fallos a fuentes específicas de requisitos. La evaluación muestra que incluso los mejores modelos logran solo 57.1% de precisión, y la satisfacción de las rúbricas disminuye cuando la intención está oculta.

arxiv arXiv cs.CL · hace 2 h

Los modelos de visión y lenguaje no siempre necesitan imágenes para la precisión en radiografías de tórax

Una auditoría causal muestra que los modelos solo de texto igualan a los modelos multimodales en precisión de radiografía torácica. En nueve sistemas, un modelo solo de texto se mantiene dentro de 5.7 puntos del mejor modelo multimodal, y un modelo de 119 mil millones de parámetros es indistinguible de una línea base solo de texto de 7 mil millones de parámetros. Las auditorías de fundamentación, no la precisión, deben determinar el despliegue clínico.

arxiv arXiv cs.CL · hace 2 h

Los avatares impulsados por IA permiten la formación realista en terapia de aceptación y compromiso

Un sistema que utiliza IA para simular pacientes virtuales proporciona retroalimentación paso a paso sobre las prácticas de la terapia de aceptación y compromiso. GPT-4o-mini logró el error absoluto medio más bajo al igualar las calificaciones de los supervisores humanos, mostrando una fuerte concordancia en la fidelidad de la TAC. La herramienta apoya la práctica del terapeuta mediante interacciones realistas y de bajo riesgo con retroalimentación inmediata.

arxiv arXiv cs.CL · hace 2 h

La paradoja de la masa: la reescritura por IA degrada la incertidumbre clínica y la alineación multimodal

Los informes de radiología reescritos por IA muestran una pérdida significativa de información, con la resumización del EHR erosionando el 51.4% de las entidades clínicas y el 43.7% del lenguaje de cautela. A pesar de preservar la alineación imagen-texto, las tareas de casos estandarizados y de enseñanza reducen la alineación multimodal en un 14.9-16.5%, seis a siete veces más que la resumización del EHR. El estudio no encuentra una degradación preferencial de patologías raras e identifica el tipo de tarea de reescritura como el principal impulsor de la degradación, no el contenido clínico.

arxiv arXiv cs.CL · hace 2 h

Las pruebas de código están desalineadas con la ingeniería de software agéntica

Las pruebas de código actuales fueron diseñadas antes de la ingeniería de software agéntica y no logran capturar la complejidad de los sistemas del mundo real. Confunden el rendimiento del modelo con todo el sistema, ignoran soluciones alternativas válidas y carecen de señales de retroalimentación a nivel de componentes individuales, lo que dificulta la mejora iterativa.

arxiv arXiv cs.CL · hace 2 h

DIFE audita la exposición a backdoors de CLIP en interfaces de despliegue

DIFE evalúa checkpoints de CLIP con backdoors en diferentes interfaces de despliegue, revelando que el éxito nativo no garantiza seguridad en la reutilización. El framework muestra que el envenenamiento del lado textual permite exposición adversaria en tareas de recuperación, reranking y selección, mientras que el uso únicamente visual permanece mayormente sin afectar. Se introduce BadTextTower para generar una exposición fuerte condicionada por texto sin comprometer el rendimiento visual.

arxiv arXiv cs.CL · hace 2 h

Un marco para evaluar habilidades agénticas a escala

Presentamos un marco para evaluar habilidades agénticas mediante la construcción de tareas realistas y la evaluación de la utilidad de las habilidades a través de la ejecución de tareas. Aplicado a 500 habilidades del mundo real, genera 1,000 tareas y rúbricas de puntuación, evaluando 19 configuraciones de modelos agénticos en modelos propietarios y de código abierto. Los resultados muestran una variación significativa en el cumplimiento de instrucciones y las mejoras de rendimiento, con las habilidades que alteran sustancialmente el comportamiento del modelo en comparación con configuraciones sin habilidades.

arxiv arXiv cs.CL · hace 2 h

El ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos mediante la identificación del idioma

Un estudio descubre que el ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos cuando la identificación del idioma es precisa. Incluir un token de identificación del idioma durante la inferencia mejora el rendimiento del ASR cuando la precisión de la identificación es baja, especialmente en pares de idiomas diversos entre diferentes familias y sistemas de escritura.