Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 75

TAC: Primer benchmark agéntico para el bienestar animal en IA

TAC evalúa si los agentes de IA evitan la explotación animal en las reservas de viajes. Los siete modelos de vanguardia obtienen puntuaciones por debajo del 64% como nivel aleatorio, con Claude Opus 4.7 al 53%. Añadir un prompt del sistema consciente del bienestar mejora significativamente el rendimiento, aunque los modelos no muestran evidencia de conciencia de la evaluación en sus respuestas.

arxiv arXiv cs.AI · hace 1 h En vivo

La resistencia de la memoria flash como capital depreciado en la memoria del robot

La resistencia de la memoria flash de un robot es un activo no renovable que se degrada con cada escritura. Un modelo de precios consciente del desgaste introduce un precio sombra $η$ para guiar la colocación de la memoria entre RAM, NVM y la nube, con el enrutamiento óptimo dependiendo de la asociación valor-escritura $χ$. Las mediciones empíricas muestran que $χ$ es positivo en manipulación a largo plazo, nulo en tareas a corto plazo y negativo en teleoperación, y el presupuesto de resistencia es limitante solo en memoria QLC/eMMC de gama baja, donde el control consciente del desgaste influye en el enrutamiento basado en el valor de la tarea sin mejorar el rendimiento.

arxiv arXiv cs.AI · hace 1 h En vivo

WEQA: Respuesta a preguntas de salud con dispositivos portátiles mediante razonamiento agente adaptativo a la consulta

WEQA presenta un marco de agentes adaptativos a la consulta que combina modelos de lenguaje con herramientas especializadas de análisis de datos de dispositivos portátiles. Supera a las líneas base de LLM y agentes en un 24% en precisión y demuestra una utilidad mejorada y solidez clínica en evaluaciones de expertos y usuarios.

arxiv arXiv cs.AI · hace 1 h En vivo

LEADS: Descubrimiento agéntico de modelos híbridos para la electrofisiología cardíaca

LEADS propone un marco que utiliza un agente LLM para descubrir modelos híbridos de electrofisiología cardíaca a través de un bucle iterativo de razonamiento y acción. Formula el conocimiento del dominio como un espacio de acciones estructurado, permitiendo diseños de modelos físicamente fundamentados, interpretables y numéricamente estables, superando tanto a los diseñados por humanos como a otros enfoques basados en LLM en datos cardíacos sintéticos y reales.

arxiv arXiv cs.AI · hace 1 h En vivo

ReAge3D: Re-envejecimiento facial 3D realista con consistencia de vista

ReAge3D introduce un marco para el re-envejecimiento facial 3D realista y que preserva la identidad. Utiliza un modelo de difusión 2D y edición centrada hacia afuera para garantizar la consistencia multi-vista, preservando los detalles finos relacionados con la edad mediante difusión enmascarada y reconstrucción de vista.

arxiv arXiv cs.AI · hace 1 h En vivo

Brecha de medición en la automatización del derecho de la UE

Los modelos de lenguaje grandes pueden producir texto jurídico de calidad mediana, pero ningún benchmark evalúa su capacidad para realizar razonamiento jurídico doctrinal. Esta brecha socava el requisito del Reglamento de IA de la UE sobre 'precisión adecuada' en la IA judicial, ya que la evaluación necesaria del razonamiento doctrinal sigue ausente.

arxiv arXiv cs.AI · hace 1 h En vivo

Señales de oráculo en código de prueba generado por agentes

Un estudio empírico de 86.156 parches de archivos de prueba procedentes de 33.596 PRs generados por agentes revela que el 80,2% de los parches de prueba contienen señales de oráculo débiles o inexistentes. Los archivos de prueba con oráculo fuerte mejoran significativamente la probabilidad de fusión (OR = 1,28, p < 0,001) después de ajustar por múltiples factores, lo que indica que la presencia del archivo de prueba por sí sola sobrestima la fuerza de verificación.

arxiv arXiv cs.AI · hace 1 h En vivo

IUU+DB: Base de datos impulsada por LLM para pesca ilegal y crímenes en la cadena de suministro

IUU+DB es un sistema impulsado por modelos de lenguaje grande que rastrea la pesca ilegal, no declarada y no reglamentada, el fraude de mariscos y los abusos laborales. Extrae elementos clave de datos de documentos diversos, clasifica incidentes relevantes y permite análisis de tendencias para identificar puntos calientes geográficos y conductuales. El sistema apoya la investigación, evaluaciones de riesgo y aplicación de políticas en pesquerías y cadenas de suministro.

arxiv arXiv cs.AI · hace 1 h En vivo

Regresión de Kolmogorov para Políticas de Difusión Robustas

Una ecuación de Kolmogorov hacia atrás eleva las políticas de difusión a un espacio de Cameron-Martin, reemplazando el emparejamiento estocástico de puntas con una EDP determinista. Este enfoque logra cotas de convergencia vinculadas al rango efectivo del núcleo, regularidad mejorada de la trayectoria y un detector de fallos sin recompensas, mostrando una recompensa 17% mayor y una deriva reducida en un 67.6% en PushT, y un RMSE 28.4% menor con detección perfecta del cuello de botella en una línea de fabricación. La teoría de Hamilton-Jacobi reduce los eventos de punto muerto en un 96% en simulaciones.

arxiv arXiv cs.AI · hace 1 h En vivo

DRFLOW: Benchmark para la Predicción de Flujos de Trabajo Personalizados

DRFLOW introduce un benchmark para evaluar la capacidad de los agentes de predecir flujos de trabajo personalizados a partir de fuentes heterogéneas. Incluye 100 tareas en cinco dominios, fundamentadas en 3,900 fuentes y con 1,246 pasos de flujo de trabajo de referencia. DRFLOW-Agent logra hasta un 10.02% de mejora en F1 sobre las líneas base, pero aún persisten desafíos significativos en la predicción precisa de flujos de trabajo.

arxiv arXiv cs.AI · hace 1 h En vivo

Un estudio de red-team descubre que los LLMs de vanguardia siguen siendo vulnerables a ataques adaptativos

Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones dañinas y Fable -5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completaciones dañinas confirmadas por panel a través de todas las categorías de daño, de manera automática y eficiente bajo ataque automatizado.

arxiv arXiv cs.AI · hace 1 h En vivo

RubricsTree: Marco de evaluación escalable para agentes de salud personal

RubricsTree introduce una taxonomía jerárquica de más de 100 rúbricas booleanas clínicamente verificables, evolucionadas a partir de 4.000 consultas reales de usuarios mediante curación con intervención humana. Permite la evaluación escalable y alineada con expertos de agentes de salud personal, enrutando dinámicamente las consultas a las rúbricas relevantes y superando a los métodos base en alineación, detección de degradación del contexto y mejoras en el rendimiento del modelo de hasta el 66% en HealthBench.

arxiv arXiv cs.AI · hace 1 h En vivo

FPRM: Modelo de Razonamiento en Punto Fijo con Cómputo Adaptativo

FPRM es un modelo basado en Transformer que utiliza la convergencia en punto fijo como mecanismo de detención de extremo a extremo en una arquitectura en bucle. Adapta el cómputo a la dificultad de la tarea aprovechando el razonamiento en punto fijo, superando a los modelos base en los benchmarks de Sudoku, Laberinto, seguimiento de estado y ARC-AGI.

arxiv arXiv cs.AI · hace 1 h En vivo

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador compartido por parámetros. Este enfoque logra hasta 100 veces más eficiencia de parámetros en comparación con los modelos de mundo convencionales, adaptando la profundidad del cómputo a la complejidad de cada predicción.

arxiv arXiv cs.AI · hace 1 h En vivo

Aprendizaje de la política del agente rojo a partir de observaciones para agentes cibernéticos neurosimbólicos

Se propone una técnica de aprendizaje de políticas que utiliza aprendizaje por imitación para predecir las acciones del agente rojo en entornos cibernéticos parcialmente observables. El método aprende las políticas del agente rojo a partir de observaciones de la red y acciones del defensor, permitiendo a los agentes de defensa cibernética neurosimbólicos predecir con precisión los ataques y adaptar las defensas en diversos escenarios simulados.

arxiv arXiv cs.AI · hace 1 h En vivo

EvolveNav: Memoria autoevolutiva para navegación zero-shot

EvolveNav introduce un marco de trabajo autoevolutivo para la navegación de objetivos de objetos zero-shot que mejora durante el tiempo de prueba. Utiliza una memoria basada en reglas derivada de trayectorias pasadas y una estrategia de recuperación basada en confianza para seleccionar acciones efectivas, reduciendo la exploración redundante. El método logra una tasa de éxito un 10.1% mayor que las líneas base existentes con menos pasos innecesarios.

arxiv arXiv cs.AI · hace 1 h En vivo

ReproRepo: Escalando auditorías de reproducibilidad con GitHub Issues

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueo en el 90% de los pares artículo-repositorio sin ejecutar código, aunque la localización exacta sigue siendo desafiante.

arxiv arXiv cs.AI · hace 1 h En vivo

La verificación visual permite la dirección en tiempo de inferencia y la mejora autónoma de políticas

VERITAS introduce un marco generador-verificador que permite a los robots mejorar las políticas en tiempo real sin entrenamiento adicional. Un verificador visual evalúa las acciones en el momento de la inferencia, permitiendo ganancias de rendimiento consistentes a través de rollouts verificados que sirven como supervisión efectiva para la mejora offline de políticas. El post-entrenamiento con estos rollouts verificados iguala en eficiencia a las demostraciones expertas, sin intervención humana.

arxiv arXiv cs.AI · hace 1 h En vivo

Informalización simbólica en el proyecto Informath

El proyecto Informath demuestra la informalización simbólica para convertir matemáticas formales en lenguaje natural fluido y preciso. Utiliza Dedukti como centro de sistemas de prueba y Grammatical Framework para corrección lingüística en múltiples idiomas, permitiendo salidas legibles por humanos a partir de pruebas generadas por IA.

arxiv arXiv cs.AI · hace 1 h En vivo

Semantic Flip: Generación sintética de OOD para una negativa robusta

Semantic Flip propone un marco para sintetizar muestras fuera de distribución transformando consultas y memoria de video para crear pares no respondibles. Estos pares entrenan un módulo de rechazo ligero que se adjunta a modelos existentes de visión-lenguaje sin reentrenamiento, mejorando el rendimiento de la negativa en preguntas y respuestas encarnadas y localización espacial. En el nuevo benchmark SpaceReject, alcanza una puntuación F1 de 0.9559.