Redes neuronales como regresión lineal: una introducción para estadísticos
Este artículo introduce las redes neuronales a los estadísticos desmitificando el campo desde la perspectiva de la aproximación por regresión lineal.
Este artículo introduce las redes neuronales a los estadísticos desmitificando el campo desde la perspectiva de la aproximación por regresión lineal.
Los investigadores proponen un marco escalable para fusionar transformadores de miles de millones de parámetros entrenados independientemente utilizando conectividad de modos lineales, abordando los límites de escalabilidad en métodos existentes. El enfoque emplea transformaciones de pesos que preservan la función y un procedimiento de aprendizaje dual donde ambos modelos optimizan conjuntamente hacia una trayectoria de interpolación lineal compartida.
El artículo argumenta en contra del uso de modelos de lenguaje grandes para inferir estructuras causales, advirtiendo que tales enfoques corren el riesgo de confundir asociaciones textuales con evidencia causal genuina. En su lugar, propone que los agentes solo deben asistir el flujo de trabajo inspeccionando datos y explicando supuestos, mientras se mantiene que las afirmaciones causales estén fundamentadas en algoritmos formales y diagnósticos.
Un usuario de Reddit demuestra la ejecución del modelo Qwen3.6-27B cuantizado a Q3 con KV en Q8 en una GPU AMD Mi50 de 32 GB, logrando aproximadamente 180+ tokens por segundo para el procesamiento de prompts y 9 tokens por segundo para la generación de texto.
Un desarrollador ha creado un backend de motor de NPC agnóstico al juego que aprovecha modelos locales pequeños para lograr tiempos de respuesta rápidos y una calidad decente para juegos de rol. El sistema utiliza NVIDIA Parakeet 0.6 para la conversión de voz a texto, Gemma 4 26B A4B como LLM y Qwen3-TTS para la síntesis de voz.
Un usuario informa haber probado el modo de división de tensores con dos eGPUs Morefine G1 4090M de 16GB conectadas mediante Thunderbolt 3 a 40Gbps. Mientras que el modo de división por capas produce altas tasas de tokens para el prellenado (PP) y la generación de texto (TG), el modo de división de tensores satura ambas tarjetas durante TG pero sufre de un mal rendimiento en PP debido a la saturación del ancho de banda.
Los autores proponen árboles de clasificación neural (NCT), un marco que logra robustez al codificar la estructura de subgrupos dentro de su arquitectura en forma de árbol para abordar correlaciones espurias en modelos de aprendizaje automático.
Los investigadores proponen un método bootstrap novel llamado Autofiltrado que entrena un modelo CLIP en un conjunto de datos en evolución seleccionado mediante autofiltrado iterativo. Este enfoque equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución para mitigar el ruido en conjuntos de datos de visión-lenguaje a gran escala.
Los autores proponen Hedgementation, un nuevo benchmark diseñado para evaluar modelos de aprendizaje automático para mapear setos a partir de datos de teledetección a escala nacional con una resolución espacial de 10m². Esta iniciativa combina y armoniza múltiples productos de teledetección y etiquetas de verdad derivadas de un inventario francés de setos.
Este artículo propone un paradigma de aprendizaje continuo activo para modelos Visión-Lenguaje-Acción (VLA) con el fin de abordar las ineficiencias del aprendizaje por imitación pasiva. Los autores demuestran que la recolección de datos guiada por incertidumbre mejora la eficiencia del ajuste fino, pero provoca un olvido catastrófico cuando se utilizan exclusivamente los datos de recuperación.
El artículo presenta DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa procesando latentes de imágenes casi limpias y agregando representaciones condicionadas por texto a través de las capas del transformer. Este enfoque aprovecha las representaciones generativas para evaluar la calidad de las imágenes generadas sin requerir objetivos de entrenamiento separados.
El artículo demuestra que la actualización direccional de Muown es equivalente a un paso riemanniano en direcciones normalizadas, donde la magnitud de la parametrización no normalizada modula el tamaño del paso angular. Esta comprensión explica la estabilidad del tamaño de paso de Muown y motiva el desarrollo de AngularMuown, que optimiza directamente sobre direcciones normalizadas con un multiplicador angular explícito y programable.
Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.
Hack Your Summer es un sprint de producción gratuito y de alta velocidad de cuatro semanas diseñado para estudiantes de pregrado, posgrado y recién graduados para crear trabajo tangible y público. La iniciativa sirve como alternativa a las pasantías tradicionales en medio de una crisis de reducción en la disponibilidad de pasantías en EE.UU.
Jon Udell argumenta en contra de la frase "humano en el bucle" porque cede autoridad a las máquinas, proponiendo en su lugar que los humanos deban invitar a los agentes a sus flujos de trabajo existentes como miembros del equipo.
Neofold es un juego de colección de criaturas inactivo que utiliza un modelo de difusión local para generar una variedad infinita de mascotas. El título fue lanzado recientemente y está disponible en Steam.
Este artículo demuestra que la capacidad de los modelos de difusión para explotar la estructura de baja dimensión con el fin de acelerar el muestreo es una propiedad robusta e independiente de las elecciones específicas de los coeficientes de actualización. Los autores demuestran que una amplia clase de coeficientes permite generar una muestra con precisión ε en O(k/ε) iteraciones, independientemente de la dimensión del espacio ambiente.
Este artículo presenta un marco para aproximar secuencialmente funciones en secuencias que varían lentamente, aprovechando la reutilización de consultas anteriores para reducir el costo computacional general. Los autores presentan nuevos resultados de estimación secuencial para potencias de matrices, densidades espectrales, integración de Monte Carlo y problemas de valores en la frontera de ecuaciones diferenciales parciales.
El artículo presenta Action-BED, un nuevo marco para el diseño experimental bayesiano que formula el problema en términos de pérdida futura esperada sobre acciones posteriores, en lugar de la reducción de incertidumbre. Este enfoque convierte objetivos tradicionalmente doblemente intractables en singlamente intractables que pueden optimizarse conjuntamente utilizando gradientes estocásticos.
Este estudio investiga sistemáticamente el impacto de la optimización del prompt del sistema en sistemas multi-agente (MAS) mediante la evaluación de dos optimizadores en diversas configuraciones de tareas, flujos de trabajo y tamaños de equipo.