Todos los artículos
arxiv arXiv cs.LG · hace 6 h

Clasificación de series temporales mediante deformación temporal difeomórfica (DiffTW)

El artículo presenta la Deformación Temporal Difeomórfica (DiffTW), un marco teórico para la clasificación de series temporales que aprende mapeos entre funciones de valores reales para superar las limitaciones del emparejamiento discreto de puntos de la Deformación Temporal Dinámica (DTW). DiffTW aproxima transformaciones difeomórficas utilizando el método de características para resolver ecuaciones de transporte lineales, proporcionando una medida de disimilitud con fundamentos teóricos.

arxiv arXiv cs.LG · hace 6 h

Las Redes Neuronales Profundas con Estructura Sublineal Logran Coherencia en el Aprendizaje de Características para Funciones Composicionales

Este estudio establece garantías de coherencia en el aprendizaje de características para una amplia subclase de redes neuronales profundas caracterizadas por un crecimiento sublineal en las dimensiones de entrada/salida y en las neuronas ocultas en relación con el tamaño de la muestra. Los autores demuestran que estas arquitecturas logran aproximación universal para funciones composicionales jerárquicas, incluso dentro del régimen sobreparametrizado convencional donde los parámetros superan a las muestras de entrenamiento.

arxiv arXiv cs.LG · hace 6 h

FLKit: Un kit de herramientas estructurado para la incorporación al aprendizaje federado en salud

FLKit es un kit de herramientas de incorporación abierto y mantenido por la comunidad, diseñado para ayudar a equipos multidisciplinarios a navegar el ciclo de vida del aprendizaje federado en investigaciones de salud y ciencias de la vida. Proporciona puntos de entrada conscientes del rol para contribuyentes clínicos, legales, de gobernanza y técnicos, abordando las barreras prácticas de marcos dispersos y obligaciones de gobernanza.

arxiv arXiv cs.LG · hace 6 h

FairBED: Un enfoque de diseño experimental bayesiano para recopilar datos más justos

El artículo presenta FairBED, un marco que modifica el propio proceso de adquisición de datos para recopilar datos inherentemente más justos, abordando los sesgos presentes en los conjuntos de datos existentes. Proporciona formulaciones novedosas para cuantificar la equidad del conjunto de datos basadas en el principio de que los conjuntos de datos justos no deben ser informativos sobre los atributos sensibles.

arxiv arXiv cs.CL · hace 6 h

DMV-Bench: Diagnosticando la memoria visual de agentes multimodales de largo horizonte mediante inyección de pistas incidentales

Los investigadores presentan DMV-Bench, el primer benchmark interactivo diseñado para evaluar la memoria visual en agentes multimodales dentro de entornos controlados. El estudio propone DualMem, una arquitectura de memoria visual y verbal paralela que supera significativamente a los sistemas existentes en esta nueva herramienta de diagnóstico.

arxiv arXiv cs.LG · hace 7 h

Concordia: Puntos de control persistentes con núcleo JIT-compilado para inferencia tolerante a fallos de LLM

Este artículo presenta Concordia, un entorno de ejecución diseñado para proporcionar tolerancia a fallos en agentes LLM de larga duración manteniendo el estado valioso en las GPUs sin reiniciar la pila de servicio. El sistema utiliza un núcleo persistente residente en el dispositivo que se interpone en la carga del módulo GPU para admitir instrumentación a nivel PTX y SASS.

media r/LocalLLaMA · hace 7 h

Actualización: Primeros resultados manuales de pruebas sobre la transferencia de habilidades procedimentales en modelos pequeños

Un experimento manual evaluó si un andamio procedural generado por un modelo grande puede transferir disciplina de planificación a modelos más pequeños sin ajuste fino ni revelación de la respuesta objetivo. Los resultados indican que este enfoque mejora significativamente la legibilidad estructural y la composición en modelos pequeños cuando se aplica en diferentes dominios de Three.js.

arxiv arXiv cs.CL · hace 7 h

Supersede: Diagnosticar y entrenar la brecha de actualización de memoria en agentes LLM

Este artículo identifica un modo de fallo distinto en agentes de modelos de lenguaje grandes donde tienen dificultades para descartar hechos obsoletos en favor de los actuales, incluso cuando la comprensión está intacta. Los autores demuestran que esta "brecha de supresión" persiste a través de las escalas del modelo y los tamaños de memoria, lo que indica que es un cuello de botella entrenable en lugar de una limitación de la ventana de contexto o la fuerza del modelo.

arxiv arXiv cs.CL · hace 8 h

Aloe-Vision: Modelos robustos de visión y lenguaje para atención médica

Este trabajo presenta Aloe-Vision, una familia de modelos grandes de visión y lenguaje de código abierto (7B y 72B) entrenados en el recién lanzado conjunto de datos Aloe-Vision-Data para abordar la escasez de datos y los problemas de robustez en la IA para atención médica. Los autores demuestran que su mezcla de entrenamiento de alta calidad produce ganancias significativas de rendimiento sobre las líneas base mientras mantiene capacidades generales.

arxiv arXiv cs.CL · hace 8 h

La maldición de los múltiples mediadores: Efectos de interacción ocultos en el parcheo de activaciones

Una nueva derivación del estimador de parcheo de activaciones desde el análisis de mediación causal revela que el efecto indirecto natural (NIE) captura no solo el efecto causal a través de un componente específico, sino también efectos de interacción (INT). Estos términos INT miden cuánto depende el efecto causal de un componente del estado de otros componentes en el modelo, desafiando la suposición de que el NIE aísla las contribuciones individuales.

arxiv arXiv cs.CL · hace 8 h

EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía

Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.