Probablemente lo necesitemos pronto.
Este post de Reddit comparte un meme con citas de Vladik y Shaw en 𝕏 sobre las necesidades futuras en el campo.
Este post de Reddit comparte un meme con citas de Vladik y Shaw en 𝕏 sobre las necesidades futuras en el campo.
Un estimador de pose monocular profundo procesa entornos marítimos renderizados en tiempo real, fusionados con datos del IMU mediante un filtro de Kalman retardado. El sistema permite vuelo autónomo en interiores con latencia de percepción y restricciones computacionales, validando la autonomía de UAV marítimos de forma segura antes del despliegue a bordo.
Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.
ClaMPAPP, un sistema híbrido, utiliza un LLM para extraer características clínicas estructuradas de notas en texto libre y las pasa a un clasificador XGBoost para el diagnóstico. Superó a los LLMs end-to-end tanto en validación interna como externa, con mejor rendimiento diagnóstico y menos casos pasados por alto, demostrando mayor estabilidad y seguridad en la triaje de apendicitis pediátrica.
El artículo explora la abducción de ABox en ELbot bajo semántica valiente y AR, centrándose en hipótesis que satisfacen múltiples propiedades o criterios de optimalidad. Muestra que añadir dichas propiedades no aumenta significativamente la complejidad computacional.
Un marco de RL enfocado en entrena conjuntamente un pronosticador y un controlador de carga para manejar tiempos de salida desconocidos de los vehículos eléctricos. El método mejora las decisiones de carga hasta en un 14% en recompensa total y reduce la energía no suministrada en un 55% en comparación con el RL estándar sin pronóstico.
XGBoost-Forget permite el desprendimiento de aprendizaje eficiente para modelos XGBoost en conjuntos de datos tabulares de intrusiones de red. Mantiene el rendimiento del modelo mientras logra un desprendimiento más rápido en comparación con el reentrenamiento completo, abordando una brecha en la investigación sobre desprendimiento de aprendizaje para datos tabulares en la detección de intrusiones de red.
MAST, un método de olvido guiado por mecanismos, logra el olvido dirigido del razonamiento inducido por RLVR con daños colaterales mínimos. En Qwen2.5-Math-1.5B y Qwen3-1.7B-Base, reduce significativamente el rendimiento en MATH (de 45/150 a 37/15-0) mientras preserva la precisión de GSM8K en +0.8 puntos y mantiene la retención de MATH en -0.5 puntos. Los resultados se mantienen consistentes entre semillas, objetivos y modelos, mostrando una estabilidad superior frente al olvido de parámetros completos.
STARE aborda el colapso de la entropía de política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.
TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.
Una nueva taxonomía conecta las necesidades de salud mental de los cuidadores de personas con Alzheimer y demencia con intervenciones tecnológicas. Identifica lagunas en el apoyo para problemas como la tensión relacional y la fatiga por compasión, y ofrece un marco compartido para diseñar tecnologías centradas en la persona y fundamentadas clínicamente.
X+Slides introduce un benchmark que evalúa la generación de diapositivas en función de las necesidades del público objetivo. Utiliza 8,133 sondas fundamentadas en la fuente a través de 113 temas y siete escenas para medir la Cobertura de Audiencia, Cobertura por Dominio, Eficiencia y Corrección, revelando que los sistemas actuales recuperan solo información parcial esencial para la audiencia, con DeepPresenter logrando 0.714 de Cobertura de Audiencia, SlideTailor 0.594 y NotebookLM ablation 0.853, destacando la necesidad de una evaluación fundamentada en la fuente.
Un nuevo benchmark evalúa imágenes generadas por IA con mucho texto en seis dominios, incluidos carteles comerciales y recibos. Revela un rendimiento significativamente dependiente del dominio y una sensibilidad a la compresión JPEG, destacando la necesidad de métodos de detección conscientes del texto y el diseño.
Un estudio compara el preentrenamiento continuo (CPT), el ajuste fino supervisado (SFT) y su combinación para QA médico en francés. CPT+SFT obtiene los mejores resultados en QA de opción múltiple, aunque las mejoras sobre SFT son pequeñas y a menudo insignificantes, lo que convierte a SFT en una opción predeterminada rentable. Para QA abierto, CPT mejora las métricas mientras que SFT degrada la calidad, siendo el ajuste de instrucciones y CPT+SFT favorecidos por evaluaciones basadas en LLM. Los resultados multilingües muestran una transferencia efectiva de los benchmarks de francés a inglés.
NeSyCat Torch proporciona una implementación de tensores diferenciables de la semántica categórica para el aprendizaje neurosimbólico, unificando sistemas clásicos, difusos, probabilísticos y neuronales bajo una única definición inductiva de verdad. Supera a LTN y DeepProbLog en velocidad y precisión en la suma de MNIST, igualando la precisión de DeepStochLog mientras opera dentro de un marco uniforme extensible a la probabilidad continua mediante instanciación de mónad.
Un estudio descubre que los chatbots sociales que corrigen sus propios errores obtienen mayor confianza del usuario y percepción de expertise que aquellos que dependen de correcciones externas. La fuerza de la conexión social entre el usuario y el chatbot mejora el cambio de creencia únicamente cuando el chatbot se autocorrige, lo que muestra que la conexión social amplifica la efectividad de la corrección de errores.
Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Menos de 1,000 de estos programas logran una similitud de intersección sobre unión superior al 75% en TinyStories, y reemplazar el 25% de las cabezas de atención con estos programas aumenta la perplexidad solo un 16% mientras preserva el rendimiento en tareas de respuesta a preguntas.
Los Agentes de Inteligencia de Datos (DIA) despliegan agentes de codificación autónomos para optimizar los flujos de trabajo de datos empresariales. El Generador de Consultas iguala o supera los mejores resultados publicados en siete benchmarks de SQL en cuatro dialectos, demostrando generalización a través de instrucciones en lenguaje natural y una arquitectura basada en ejecución.
ScenA condiciona un modelo base de texto a audio en múltiples voces de referencia y una descripción de escena en lenguaje natural para generar conversaciones realistas multi-parlante. Aborda el problema del 'Atajo de Referencia' mediante un programa de entrenamiento con sesgo hacia alto ruido, asegurando que la asignación del hablante dependa de las indicaciones de texto en lugar de la similitud acústica. Evaluado en CoVoMix2-Dialogue, ScenA supera a los sistemas existentes en la vinculación de hablantes y produce audio rico y naturalista con habla superpuesta y ruido ambiental.
La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestro en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD por 1.0 y 0.9 puntos en promedio en benchmarks de razonamiento científico.