Todos los artículos
media r/LocalLLaMA · hace 4 h

Rendimiento de la división de tensores en eGPUs con bajo ancho de banda (TB3), y una pregunta

Un usuario informa haber probado el modo de división de tensores con dos eGPUs Morefine G1 4090M de 16GB conectadas mediante Thunderbolt 3 a 40Gbps. Mientras que el modo de división por capas produce altas tasas de tokens para el prellenado (PP) y la generación de texto (TG), el modo de división de tensores satura ambas tarjetas durante TG pero sufre de un mal rendimiento en PP debido a la saturación del ancho de banda.

arxiv arXiv cs.LG · hace 5 h

Selección de datos mediante autofiltrado iterativo para entornos de visión-lenguaje

Los investigadores proponen un método bootstrap novel llamado Autofiltrado que entrena un modelo CLIP en un conjunto de datos en evolución seleccionado mediante autofiltrado iterativo. Este enfoque equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución para mitigar el ruido en conjuntos de datos de visión-lenguaje a gran escala.

arxiv arXiv cs.LG · hace 5 h

RECALL: Colección de Experiencias de Recuperación para Aprendizaje Continuo Activo en Modelos Visión-Lenguaje-Acción

Este artículo propone un paradigma de aprendizaje continuo activo para modelos Visión-Lenguaje-Acción (VLA) con el fin de abordar las ineficiencias del aprendizaje por imitación pasiva. Los autores demuestran que la recolección de datos guiada por incertidumbre mejora la eficiencia del ajuste fino, pero provoca un olvido catastrófico cuando se utilizan exclusivamente los datos de recuperación.

arxiv arXiv cs.LG · hace 5 h

DiT-Reward: Representaciones generativas para modelado de recompensas de texto a imagen

El artículo presenta DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa procesando latentes de imágenes casi limpias y agregando representaciones condicionadas por texto a través de las capas del transformer. Este enfoque aprovecha las representaciones generativas para evaluar la calidad de las imágenes generadas sin requerir objetivos de entrenamiento separados.

arxiv arXiv cs.LG · hace 5 h

Muown realiza implícitamente la reducción del tamaño de paso angular

El artículo demuestra que la actualización direccional de Muown es equivalente a un paso riemanniano en direcciones normalizadas, donde la magnitud de la parametrización no normalizada modula el tamaño del paso angular. Esta comprensión explica la estabilidad del tamaño de paso de Muown y motiva el desarrollo de AngularMuown, que optimiza directamente sobre direcciones normalizadas con un multiplicador angular explícito y programable.

arxiv arXiv cs.LG · hace 5 h

Aprendizaje de recompensas de proceso mediante emparejamiento de visitas al éxito para RL eficiente

Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.

arxiv arXiv cs.LG · hace 6 h

Los modelos de difusión se adaptan a la estructura de baja dimensión bajo elecciones flexibles de coeficientes

Este artículo demuestra que la capacidad de los modelos de difusión para explotar la estructura de baja dimensión con el fin de acelerar el muestreo es una propiedad robusta e independiente de las elecciones específicas de los coeficientes de actualización. Los autores demuestran que una amplia clase de coeficientes permite generar una muestra con precisión ε en O(k/ε) iteraciones, independientemente de la dimensión del espacio ambiente.

arxiv arXiv cs.LG · hace 6 h

Estimación dinámica de secuencias que varían lentamente

Este artículo presenta un marco para aproximar secuencialmente funciones en secuencias que varían lentamente, aprovechando la reutilización de consultas anteriores para reducir el costo computacional general. Los autores presentan nuevos resultados de estimación secuencial para potencias de matrices, densidades espectrales, integración de Monte Carlo y problemas de valores en la frontera de ecuaciones diferenciales parciales.

arxiv arXiv cs.LG · hace 6 h

Action-BED: Diseño Experimental Bayesiano Basado en Tareas con Objetivos Singlamente Intractables

El artículo presenta Action-BED, un nuevo marco para el diseño experimental bayesiano que formula el problema en términos de pérdida futura esperada sobre acciones posteriores, en lugar de la reducción de incertidumbre. Este enfoque convierte objetivos tradicionalmente doblemente intractables en singlamente intractables que pueden optimizarse conjuntamente utilizando gradientes estocásticos.

arxiv arXiv cs.LG · hace 6 h

Sobre los límites de los modelos de lenguaje condicionados por prompts como aprendedores de propósito general

Este artículo sostiene que los Modelos de Lenguaje Grande no son solucionadores universales de problemas mediante el uso exclusivo de prompts, debido a restricciones fundamentales en el lenguaje como interfaz de comunicación y requisitos de alineación. Los autores analizan la interacción usuario-sistema como un juego de cheap-talk para derivar cotas PAC-Bayes que distinguen el error de estimación de las limitaciones estructurales.

arxiv arXiv cs.LG · hace 6 h

Modelos de Lenguaje Afilados: Mejorar el Rendimiento mediante la Asignación de Capacidad Consciente de la Profundidad

El artículo introduce los Modelos de Lenguaje Afilados (TLMs), un principio arquitectónico que asigna más capacidad de parámetros a las capas iniciales y menos a las capas posteriores dentro de un presupuesto fijo. Este enfoque desafía la práctica estándar de ancho uniforme en las capas al aprovechar la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo.

arxiv arXiv cs.LG · hace 6 h

PsyBridge: Un marco híbrido inteligente para la evaluación multidimensional de la salud mental

Este estudio presenta PsyBridge, un marco híbrido inteligente diseñado para abordar las limitaciones de las herramientas de detección de salud mental aisladas al integrar evaluaciones clínicamente validadas con perfiles cognitivos y de personalidad. El sistema utiliza una arquitectura modular y un mecanismo de agregación ponderada para generar clasificaciones de riesgo interpretables y recomendaciones de apoyo a la decisión.