Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 88

Probablemente lo necesitemos pronto.

Este post de Reddit comparte un meme con citas de Vladik y Shaw en 𝕏 sobre las necesidades futuras en el campo.

Visión en el bucle validada por hardware para la autonomía de UAV marítimos

Un estimador de pose monocular profundo procesa entornos marítimos renderizados en tiempo real, fusionados con datos del IMU mediante un filtro de Kalman retardado. El sistema permite vuelo autónomo en interiores con latencia de percepción y restricciones computacionales, validando la autonomía de UAV marítimos de forma segura antes del despliegue a bordo.

arxiv arXiv cs.AI · hace 3 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.

arxiv arXiv cs.AI · hace 3 h

LLM-as-Interface, ML-as-Predictor para Apendicitis Pediátrica

ClaMPAPP, un sistema híbrido, utiliza un LLM para extraer características clínicas estructuradas de notas en texto libre y las pasa a un clasificador XGBoost para el diagnóstico. Superó a los LLMs end-to-end tanto en validación interna como externa, con mejor rendimiento diagnóstico y menos casos pasados por alto, demostrando mayor estabilidad y seguridad en la triaje de apendicitis pediátrica.

arxiv arXiv cs.AI · hace 3 h

Combinar propiedades en la abducción de ABox de ELbot

El artículo explora la abducción de ABox en ELbot bajo semántica valiente y AR, centrándose en hipótesis que satisfacen múltiples propiedades o criterios de optimalidad. Muestra que añadir dichas propiedades no aumenta significativamente la complejidad computacional.

arxiv arXiv cs.AI · hace 3 h

RL enfocado en decisiones para carga de vehículos eléctricos con tiempos de salida desconocidos

Un marco de RL enfocado en entrena conjuntamente un pronosticador y un controlador de carga para manejar tiempos de salida desconocidos de los vehículos eléctricos. El método mejora las decisiones de carga hasta en un 14% en recompensa total y reduce la energía no suministrada en un 55% en comparación con el RL estándar sin pronóstico.

arxiv arXiv cs.AI · hace 3 h

XGBoost-Forget para el desprendimiento de aprendizaje en la detección de intrusiones de red

XGBoost-Forget permite el desprendimiento de aprendizaje eficiente para modelos XGBoost en conjuntos de datos tabulares de intrusiones de red. Mantiene el rendimiento del modelo mientras logra un desprendimiento más rápido en comparación con el reentrenamiento completo, abordando una brecha en la investigación sobre desprendimiento de aprendizaje para datos tabulares en la detección de intrusiones de red.

arxiv arXiv cs.AI · hace 3 h

MAST permite el olvido selectivo en el razonamiento inducido por RLVR

MAST, un método de olvido guiado por mecanismos, logra el olvido dirigido del razonamiento inducido por RLVR con daños colaterales mínimos. En Qwen2.5-Math-1.5B y Qwen3-1.7B-Base, reduce significativamente el rendimiento en MATH (de 45/150 a 37/15-0) mientras preserva la precisión de GSM8K en +0.8 puntos y mantiene la retención de MATH en -0.5 puntos. Los resultados se mantienen consistentes entre semillas, objetivos y modelos, mostrando una estabilidad superior frente al olvido de parámetros completos.

arxiv arXiv cs.AI · hace 3 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de política

STARE aborda el colapso de la entropía de política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.AI · hace 3 h

TxBench-PP: Benchmark de Agentes de IA en Farmacología Preclínica

TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.

arxiv arXiv cs.AI · hace 3 h

Los enlaces de taxonomía conectan las necesidades de los cuidadores con la tecnología de salud mental

Una nueva taxonomía conecta las necesidades de salud mental de los cuidadores de personas con Alzheimer y demencia con intervenciones tecnológicas. Identifica lagunas en el apoyo para problemas como la tensión relacional y la fatiga por compasión, y ofrece un marco compartido para diseñar tecnologías centradas en la persona y fundamentadas clínicamente.

arxiv arXiv cs.AI · hace 3 h

X+Slides: Benchmark para la Generación de Diapositivas Condicionada por Audiencia

X+Slides introduce un benchmark que evalúa la generación de diapositivas en función de las necesidades del público objetivo. Utiliza 8,133 sondas fundamentadas en la fuente a través de 113 temas y siete escenas para medir la Cobertura de Audiencia, Cobertura por Dominio, Eficiencia y Corrección, revelando que los sistemas actuales recuperan solo información parcial esencial para la audiencia, con DeepPresenter logrando 0.714 de Cobertura de Audiencia, SlideTailor 0.594 y NotebookLM ablation 0.853, destacando la necesidad de una evaluación fundamentada en la fuente.

arxiv arXiv cs.AI · hace 3 h

Benchmark de múltiples dominios para detectar imágenes generadas por IA con mucho texto

Un nuevo benchmark evalúa imágenes generadas por IA con mucho texto en seis dominios, incluidos carteles comerciales y recibos. Revela un rendimiento significativamente dependiente del dominio y una sensibilidad a la compresión JPEG, destacando la necesidad de métodos de detección conscientes del texto y el diseño.

arxiv arXiv cs.AI · hace 3 h

Compensaciones en la adaptación de LLM médicos: Estudio de QA en francés

Un estudio compara el preentrenamiento continuo (CPT), el ajuste fino supervisado (SFT) y su combinación para QA médico en francés. CPT+SFT obtiene los mejores resultados en QA de opción múltiple, aunque las mejoras sobre SFT son pequeñas y a menudo insignificantes, lo que convierte a SFT en una opción predeterminada rentable. Para QA abierto, CPT mejora las métricas mientras que SFT degrada la calidad, siendo el ajuste de instrucciones y CPT+SFT favorecidos por evaluaciones basadas en LLM. Los resultados multilingües muestran una transferencia efectiva de los benchmarks de francés a inglés.

arxiv arXiv cs.AI · hace 3 h

NeSyCat Torch: Implementación de tensores diferenciables para aprendizaje neurosimbólico

NeSyCat Torch proporciona una implementación de tensores diferenciables de la semántica categórica para el aprendizaje neurosimbólico, unificando sistemas clásicos, difusos, probabilísticos y neuronales bajo una única definición inductiva de verdad. Supera a LTN y DeepProbLog en velocidad y precisión en la suma de MNIST, igualando la precisión de DeepStochLog mientras opera dentro de un marco uniforme extensible a la probabilidad continua mediante instanciación de mónad.

arxiv arXiv cs.AI · hace 3 h

La autocorrección aumenta la confianza en los chatbots sociales

Un estudio descubre que los chatbots sociales que corrigen sus propios errores obtienen mayor confianza del usuario y percepción de expertise que aquellos que dependen de correcciones externas. La fuerza de la conexión social entre el usuario y el chatbot mejora el cambio de creencia únicamente cuando el chatbot se autocorrige, lo que muestra que la conexión social amplifica la efectividad de la corrección de errores.

arxiv arXiv cs.AI · hace 3 h

Ingeniería inversa de la atención del Transformer con programas ejecutables

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Menos de 1,000 de estos programas logran una similitud de intersección sobre unión superior al 75% en TinyStories, y reemplazar el 25% de las cabezas de atención con estos programas aumenta la perplexidad solo un 16% mientras preserva el rendimiento en tareas de respuesta a preguntas.

arxiv arXiv cs.AI · hace 3 h

Los Agentes de Inteligencia de Datos Habilitan la Consulta Autónoma de Datos

Los Agentes de Inteligencia de Datos (DIA) despliegan agentes de codificación autónomos para optimizar los flujos de trabajo de datos empresariales. El Generador de Consultas iguala o supera los mejores resultados publicados en siete benchmarks de SQL en cuatro dialectos, demostrando generalización a través de instrucciones en lenguaje natural y una arquitectura basada en ejecución.

arxiv arXiv cs.AI · hace 3 h

ScenA: Generación de Escenas de Audio Multi-Parlante Basada en Referencias

ScenA condiciona un modelo base de texto a audio en múltiples voces de referencia y una descripción de escena en lenguaje natural para generar conversaciones realistas multi-parlante. Aborda el problema del 'Atajo de Referencia' mediante un programa de entrenamiento con sesgo hacia alto ruido, asegurando que la asignación del hablante dependa de las indicaciones de texto en lugar de la similitud acústica. Evaluado en CoVoMix2-Dialogue, ScenA supera a los sistemas existentes en la vinculación de hablantes y produce audio rico y naturalista con habla superpuesta y ruido ambiental.

arxiv arXiv cs.AI · hace 3 h

Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestro en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD por 1.0 y 0.9 puntos en promedio en benchmarks de razonamiento científico.