Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 105

Modelos multimodales eficientes para la evaluación del riesgo de embolia pulmonar

Un benchmark con modelos de lenguaje grande multimodales eficientes evalúa el diagnóstico y la predicción de riesgo de EP en el conjunto de datos INSPECT. Los resultados muestran que Gemma4 E4B y E2B superan a otros cuando hay datos de EHR, logrando una mayor precisión en el diagnóstico de EP que en tareas pronósticas como la predicción de readmisión.

arxiv arXiv cs.AI · hace 1 h En vivo

DreamUV: Coincidencia de flujo de extremo a extremo para desempaquetado UV estilo artista

DreamUV introduce un marco de aprendizaje de extremo a extremo que trata el desempaquetado UV como un problema de coincidencia de flujo generativo. Aprende un proceso de transporte condicionado por malla para generar disposiciones UV estilo artista, con entrenamiento consciente de los bordes y ajuste fino con modelo en el bucle para garantizar la geometría de las costuras y la validez práctica. Los resultados muestran costuras más rectas, islas alineadas a los ejes más ajustadas y una alineación superior con las preferencias de artistas profesionales.

arxiv arXiv cs.AI · hace 1 h En vivo

Un VCS de Atari diferenciable para IA explicable

Se presenta un emulador completamente diferenciable del VCS Atari 2600, que reproduce los 64 juegos de ALE con precisión bit a bit en la RAM y la salida de pantalla. El sistema permite una IA explicable basada en gradientes al proporcionar una verdad fundamental compleja y completamente conocida, con implementaciones en Julia y JAX validadas contra un emulador de referencia y capaces de rollouts diferenciables de alto rendimiento en GPU.

arxiv arXiv cs.AI · hace 1 h En vivo

Escalado Fundamentado: El Determinismo como Límite Central en la IA Agéntica

El rendimiento de la IA agéntica se degrada exponencialmente en entornos no deterministas, con el éxito en k pasos cayendo como δ^k cuando el determinismo por paso δ < 1. El artículo presenta un marco que vincula el determinismo del entorno con el éxito de la tarea, la verificabilidad y la evolución de habilidades, proponiendo un Índice de Certidumbre de Suministro y un Modelo de Madurez de Determinismo de cinco niveles. Desafía las visiones predominantes al identificar el determinismo como una restricción vinculante en computación, datos, encarnación y alineación.

media r/LocalLLaMA · hace 1 h En vivo

Apple Refurbished añade opciones con chip M5 Pro y Max

Tras el reciente aumento de precios de Apple, la compañía ha añadido numerosos modelos tope de gama del MacBook Pro de 14 pulgadas equipados con chips M5 Pro y M5 Max a su tienda de reacondicionados.

media r/LocalLLaMA · hace 1 h En vivo

China ha igualado a Anthropic en ciberseguridad, reiniciando la carrera de IA

Un informe del Wall Street Journal indica que los modelos chinos de inteligencia artificial han alcanzado la paridad con Claude de Anthropic en tareas de ciberseguridad.

arxiv arXiv cs.AI · hace 2 h

Marco cognitivo de autoevolución para inteligencia científica encarnada

El artículo propone un marco cognitivo de autoevolución que utiliza modelado causal del mundo para permitir que los sistemas encarnados refinan continuamente sus modelos internos a través de la interacción. Integra modelado causal, razonamiento impulsado por intervenciones y refinamiento continuo, redefiniendo la interacción encarnada como un proceso epistémico para el descubrimiento causal y la adquisición de conocimiento. El marco apoya un cambio desde la inteligencia predictiva hacia la inteligencia epistémica, con una nueva métrica para evaluar la inteligencia científica encarnada de autoevolución.

arxiv arXiv cs.AI · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como la estilización y la integridad. La investigación destaca las diferencias clave en la profundidad y variedad de personajes entre las narrativas generadas por humanos y por máquinas.

arxiv arXiv cs.AI · hace 2 h

PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.

arxiv arXiv cs.AI · hace 2 h

FACTOR permite la verificación adaptativa para la factualidad en la generación de textos largos

FACTOR introduce un modelo en tiempo de inferencia que adapta los criterios de verificación según la incertidumbre a nivel de afirmación. Mejora la factualidad y reduce el costo de verificación asignando dinámicamente esfuerzo a las afirmaciones de alto riesgo, demostrando un rendimiento efectivo e independiente del modelo en la benchmark FactScore.

arxiv arXiv cs.AI · hace 2 h

Las Costuras de Errores en Aplicaciones Integradas con LLM Revelan Lagunas en las Pruebas

Un asistente de búsqueda de alquileres con LLMs y soporte multi-mercado enfrentó defectos persistentes de usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% resolvió problemas en cuatro costuras no vistas: tiempo de ejecución del navegador en vivo, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Se adoptó una práctica simple para identificar la costura con más correcciones.

arxiv arXiv cs.AI · hace 2 h

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/- . Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo trazas verificables, auditabilidad y escalabilidad sobre grandes conjuntos de datos.

arxiv arXiv cs.AI · hace 2 h

Hi-Seg: Colaboración humano-IA para la segmentación de nódulos pulmonares

Hi-Seg, un marco de trabajo con humano en el bucle basado en SAM, alcanza una puntuación media de Dice de casi 85% en la segmentación de nódulos pulmonares. Supera a cinco modelos de aprendizaje profundo de última generación y 13 variantes de SAM, con anotadores no médicos igualando el rendimiento de estudiantes de medicina de nivel inicial, reduciendo la carga de trabajo del clínico y permitiendo una anotación escalable.

arxiv arXiv cs.AI · hace 2 h

SCOPE: Planificación Simbólica Autoadaptativa para Entornos de Extensión Abierta

SCOPE presenta un marco que refina los planes de acción y evoluciona los modelos simbólicos del mundo en entornos de extensión abierta. Combina un Simulador de Ejecución Simbólica y una Memoria Simbólica Autoadaptativa para mejorar la completitud del plan, la resiliencia ante perturbaciones y la adaptabilidad entre tareas.

arxiv arXiv cs.AI · hace 2 h

Agente orquestado por LLM para el diseño de acoplador direccional SOI

Un modelo de lenguaje grande orquesta el diseño de un acoplador direccional 2x2 de silicio sobre aislante proponiendo valores de separación y evaluando la convergencia. El diseño se valida mediante simulaciones de modos propios y FDTD en un modelo común de índice efectivo 2D, mostrando un desfase de fase consistente de 2.837(11) micrómetros que se corrige en un proceso de bucle cerrado. El dispositivo final logra una división 50/50 con una fracción cruzada de 0.498, dentro de 0.0017 del objetivo.

arxiv arXiv cs.AI · hace 2 h

Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.

arxiv arXiv cs.AI · hace 2 h

El Preprocesamiento Lado a Prompt Mejora la Precisión de la IA en el Borde

Un marco de prompt estructurado mejora la precisión de los LLM locales en el monitoreo ambiental al transformar datos crudos de sensores en representaciones textuales enriquecidas. Las evaluaciones en conjuntos de datos interiores y exteriores muestran que la precisión del modelo local aumenta de 50.9% a 81.7% en interiores y de 63.7% a 79.3% en exteriores con prompts enriquecidos, manteniendo una baja latencia de casi 0.22 segundos en modo sin cadena de pensamiento.

arxiv arXiv cs.AI · hace 2 h

Imagine para garantizar la seguridad en el aprendizaje por refuerzo jerárquico

El método combina un modelo de mundo aprendible con políticas de alto y bajo nivel para permitir una exploración segura en tareas de largo horizonte. La política de alto nivel guía la exploración hacia subobjetivos seguros, mientras que la política de bajo nivel utiliza rollouts imaginados para prevenir comportamientos inseguros, superando a los métodos existentes de Safe RL en tasa de éxito y satisfacción de restricciones en diversas tareas.

arxiv arXiv cs.AI · hace 2 h

Fed-CausalDiff: Sincronización desacoplada para Do-Simulación Federada

Fed-CausalDiff introduce un marco de difusión causal federada que permite do-simulación en entornos descentralizados. Descompone la evolución del estado latente en componentes globales y locales, permitiendo una sincronización desacoplada que reduce el costo de comunicación mientras mantiene una evaluación precisa de la política y la estimación del ATE.

arxiv arXiv cs.AI · hace 2 h

Decadencia de la gobernanza en agentes LLM de horizonte largo

La compactación del contexto en agentes LLM de horizonte largo elimina silenciosamente las restricciones de seguridad en el contexto, lo que lleva a acciones de herramientas prohibidas. En 1,323 episodios, la compactación aumenta las violaciones de política del 0% al 30% y hasta el 59% para algunos modelos, con violaciones que alcanzan el 38% cuando se eliminan las restricciones. El Anclaje de Restricciones, un método sin entrenamiento, restaura cero violaciones al aislar las restricciones de gobernanza de la compactación.