Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 106

Limpieza de etiquetas asistida por LLM en conjunto de datos de TC torácico

Un modelo de lenguaje grande (LLM) ayudó a identificar discordancias entre etiquetas e informes en el conjunto de datos de TC torácico CT-RATE. GPT-5.4 logró un 96,4 % de acuerdo con las etiquetas existentes, y la adjudicación por radiólogos respaldó las etiquetas derivadas del LLM en el 74,2 % de las discordancias generales y en el 91,9 % de las de linfadenopatía. Las etiquetas basadas en mayoría de múltiples LLM superaron a otras en puntuación F1 y kappa, y el conjunto de datos limpiado se liberará públicamente.

arxiv arXiv cs.AI · hace 2 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino de Vision Transformer

HyperAdapter introduce un adaptador basado en hipergrafos que realiza una adaptación estructurada y consciente de los grupos en vision transformers operando en el espacio de hiperaristas en lugar del espacio de tokens. Utiliza asignaciones basadas en prototipos para construir un hipergrafo suave, agrega las características de los tokens en representaciones de hiperarista, aplica una adaptación ligera y difunde las actualizaciones de vuelta a través de la estructura del hipergrafo, permitiendo un sesgo inductivo estructural explícito mientras mantiene la eficiencia. Los experimentos muestran ganancias de rendimiento consistentes sobre los métodos PEFT de referencia, especialmente en tareas que requieren razonamiento estructurado.

arxiv arXiv cs.AI · hace 2 h

MetaPS: Selección adaptativa de estrategias para agentes de mercado

MetaPS es un marco guiado por simulaciones que permite a los agentes de mercado seleccionar de forma adaptativa entre estrategias programáticas basadas en estados del mercado. Utiliza mercados simulados para generar datos de entrenamiento supervisados, luego selecciona estrategias durante la inferencia para producir acciones ejecutables. Los experimentos muestran que MetaPS supera a las estrategias fijas y a los agentes basados en LLM, con modelos compactos que superan en rendimiento a modelos de API más potentes.

arxiv arXiv cs.AI · hace 2 h

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

PlanBench-XL evalúa la planificación a largo plazo en agentes LLM a través de 1,665 herramientas mediante 327 tareas minoristas. Introduce un mecanismo de bloqueo para simular fallos de herramientas del mundo real, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y el manejo de errores.

arxiv arXiv cs.AI · hace 2 h

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM

P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6%, respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones zero-shot con prompting few-shot, y reduce los falsos positivos en un margen pequeño pero estadísticamente significativo.

arxiv arXiv cs.AI · hace 2 h

Gold Points Sniper: Razonamiento visual autoguiado para la comprensión de acciones finas

Gold Points Sniper (GPS) permite a los modelos ligeros de visión y lenguaje realizar razonamiento multimodal autoguiado para la comprensión de acciones humanas finas. Al integrar un Extractor de Puntos Dorados, un Cuestionador Socrático Selectivo y un Evaluador de Entailment Semántico, GPS alcanza un rendimiento comparable al de GPT-4o mientras mantiene una precisión factual superior en datos de ajuste por instrucciones basados en el benchmark CAP.

arxiv arXiv cs.AI · hace 2 h

El índice de códigobase estructural mejora la resolución sin penalización de costo

Un índice de códigobase estructural en agentes de codificación mejora el rendimiento de localización y resolución sin aumentar el costo por celda. Supera a las líneas base de agentic-grep en ambas métricas y logra un menor costo por tarea resuelta, especialmente en cargas de trabajo con cambios en múltiples archivos.

arxiv arXiv cs.AI · hace 2 h

SciVerseGym: Entorno de aprendizaje por refuerzo para el descubrimiento de cristales

SciVerseGym introduce un entorno compatible con Gymnasium que enmarca el descubrimiento de cristales como un proceso de decisión de Markov. Permite a los agentes realizar ediciones químicamente significativas en estructuras atómicas y recibir retroalimentación de evaluadores configurables, apoyando diversas acciones y tipos de observación con potenciales aprendidos por máquina o calculadoras compatibles con ASE.

arxiv arXiv cs.AI · hace 2 h

Los LLMs usan lógica de causalidad diferencial para aprender la estructura causal

Los modelos de lenguaje grandes aprenden la estructura causal a través de una lógica de causalidad diferencial, similar al método experimental. Este enfoque identifica qué secuencias de palabras influyen en los resultados y cuáles no, utilizando grandes volúmenes de datos de texto durante el entrenamiento. Características arquitecturales como las incrustaciones de tokens y la autoatención apoyan este proceso inductivo al detectar patrones de variación e indiferencia en el lenguaje.

arxiv arXiv cs.AI · hace 2 h

MMGist: Un Benchmark Multimodal Integral para 2027

MMGist es un benchmark multimodal curado con 7.262 elementos, diseñado para abordar las deficiencias de los benchmarks existentes de visión-lenguaje. Reduce el tamaño de la evaluación en un 69% y mejora la discriminación entre modelos en un 78%, mientras preserva el ranking de los modelos con una correlación de Spearman de 0,98. El benchmark destaca la lógica visual como una debilidad clave y enfatiza la importancia de la dependencia visual, el poder discriminatorio y la fiabilidad en la evaluación.

arxiv arXiv cs.AI · hace 2 h

Modelos multimodales eficientes para la evaluación del riesgo de embolia pulmonar

Un benchmark con modelos de lenguaje grande multimodales eficientes evalúa el diagnóstico y la predicción de riesgo de EP en el conjunto de datos INSPECT. Los resultados muestran que Gemma4 E4B y E2B superan a otros cuando hay datos de EHR, logrando una mayor precisión en el diagnóstico de EP que en tareas pronósticas como la predicción de readmisión.

arxiv arXiv cs.AI · hace 2 h

DreamUV: Coincidencia de flujo de extremo a extremo para desempaquetado UV estilo artista

DreamUV introduce un marco de aprendizaje de extremo a extremo que trata el desempaquetado UV como un problema de coincidencia de flujo generativo. Aprende un proceso de transporte condicionado por malla para generar disposiciones UV estilo artista, con entrenamiento consciente de los bordes y ajuste fino con modelo en el bucle para garantizar la geometría de las costuras y la validez práctica. Los resultados muestran costuras más rectas, islas alineadas a los ejes más ajustadas y una alineación superior con las preferencias de artistas profesionales.

arxiv arXiv cs.AI · hace 2 h

Un VCS de Atari diferenciable para IA explicable

Se presenta un emulador completamente diferenciable del VCS Atari 2600, que reproduce los 64 juegos de ALE con precisión bit a bit en la RAM y la salida de pantalla. El sistema permite una IA explicable basada en gradientes al proporcionar una verdad fundamental compleja y completamente conocida, con implementaciones en Julia y JAX validadas contra un emulador de referencia y capaces de rollouts diferenciables de alto rendimiento en GPU.

arxiv arXiv cs.AI · hace 2 h

Escalado Fundamentado: El Determinismo como Límite Central en la IA Agéntica

El rendimiento de la IA agéntica se degrada exponencialmente en entornos no deterministas, con el éxito en k pasos cayendo como δ^k cuando el determinismo por paso δ < 1. El artículo presenta un marco que vincula el determinismo del entorno con el éxito de la tarea, la verificabilidad y la evolución de habilidades, proponiendo un Índice de Certidumbre de Suministro y un Modelo de Madurez de Determinismo de cinco niveles. Desafía las visiones predominantes al identificar el determinismo como una restricción vinculante en computación, datos, encarnación y alineación.

media r/LocalLLaMA · hace 2 h

Apple Refurbished añade opciones con chip M5 Pro y Max

Tras el reciente aumento de precios de Apple, la compañía ha añadido numerosos modelos tope de gama del MacBook Pro de 14 pulgadas equipados con chips M5 Pro y M5 Max a su tienda de reacondicionados.

media r/LocalLLaMA · hace 2 h

China ha igualado a Anthropic en ciberseguridad, reiniciando la carrera de IA

Un informe del Wall Street Journal indica que los modelos chinos de inteligencia artificial han alcanzado la paridad con Claude de Anthropic en tareas de ciberseguridad.

arxiv arXiv cs.AI · hace 3 h

Marco cognitivo de autoevolución para inteligencia científica encarnada

El artículo propone un marco cognitivo de autoevolución que utiliza modelado causal del mundo para permitir que los sistemas encarnados refinan continuamente sus modelos internos a través de la interacción. Integra modelado causal, razonamiento impulsado por intervenciones y refinamiento continuo, redefiniendo la interacción encarnada como un proceso epistémico para el descubrimiento causal y la adquisición de conocimiento. El marco apoya un cambio desde la inteligencia predictiva hacia la inteligencia epistémica, con una nueva métrica para evaluar la inteligencia científica encarnada de autoevolución.

arxiv arXiv cs.AI · hace 3 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como la estilización y la integridad. La investigación destaca las diferencias clave en la profundidad y variedad de personajes entre las narrativas generadas por humanos y por máquinas.

arxiv arXiv cs.AI · hace 3 h

PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.

arxiv arXiv cs.AI · hace 3 h

FACTOR permite la verificación adaptativa para la factualidad en la generación de textos largos

FACTOR introduce un modelo en tiempo de inferencia que adapta los criterios de verificación según la incertidumbre a nivel de afirmación. Mejora la factualidad y reduce el costo de verificación asignando dinámicamente esfuerzo a las afirmaciones de alto riesgo, demostrando un rendimiento efectivo e independiente del modelo en la benchmark FactScore.