Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 110

Aprendizaje de recompensas de proceso mediante emparejamiento de visitas al éxito para RL eficiente

Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.

blog Simon Willison · hace 3 h

Hack Your Summer lanza un Sprint de Producción Gratuito para Estudiantes

Hack Your Summer es un sprint de producción gratuito y de alta velocidad de cuatro semanas diseñado para estudiantes de pregrado, posgrado y recién graduados para crear trabajo tangible y público. La iniciativa sirve como alternativa a las pasantías tradicionales en medio de una crisis de reducción en la disponibilidad de pasantías en EE.UU.

blog Simon Willison · hace 3 h

Jon Udell: Agente humano en el bucle

Jon Udell argumenta en contra de la frase "humano en el bucle" porque cede autoridad a las máquinas, proponiendo en su lugar que los humanos deban invitar a los agentes a sus flujos de trabajo existentes como miembros del equipo.

media r/LocalLLaMA · hace 3 h

Neofold, el juego de colección de criaturas inactivo con mascotas infinitas gracias a un modelo de difusión local, se lanzó esta semana

Neofold es un juego de colección de criaturas inactivo que utiliza un modelo de difusión local para generar una variedad infinita de mascotas. El título fue lanzado recientemente y está disponible en Steam.

arxiv arXiv cs.LG · hace 4 h

Los modelos de difusión se adaptan a la estructura de baja dimensión bajo elecciones flexibles de coeficientes

Este artículo demuestra que la capacidad de los modelos de difusión para explotar la estructura de baja dimensión con el fin de acelerar el muestreo es una propiedad robusta e independiente de las elecciones específicas de los coeficientes de actualización. Los autores demuestran que una amplia clase de coeficientes permite generar una muestra con precisión ε en O(k/ε) iteraciones, independientemente de la dimensión del espacio ambiente.

arxiv arXiv cs.LG · hace 4 h

Estimación dinámica de secuencias que varían lentamente

Este artículo presenta un marco para aproximar secuencialmente funciones en secuencias que varían lentamente, aprovechando la reutilización de consultas anteriores para reducir el costo computacional general. Los autores presentan nuevos resultados de estimación secuencial para potencias de matrices, densidades espectrales, integración de Monte Carlo y problemas de valores en la frontera de ecuaciones diferenciales parciales.

arxiv arXiv cs.LG · hace 4 h

Action-BED: Diseño Experimental Bayesiano Basado en Tareas con Objetivos Singlamente Intractables

El artículo presenta Action-BED, un nuevo marco para el diseño experimental bayesiano que formula el problema en términos de pérdida futura esperada sobre acciones posteriores, en lugar de la reducción de incertidumbre. Este enfoque convierte objetivos tradicionalmente doblemente intractables en singlamente intractables que pueden optimizarse conjuntamente utilizando gradientes estocásticos.

arxiv arXiv cs.LG · hace 4 h

MAS-PromptBench: ¿Cuándo mejora la optimización de prompts los sistemas LLM multi-agente?

Este estudio investiga sistemáticamente el impacto de la optimización del prompt del sistema en sistemas multi-agente (MAS) mediante la evaluación de dos optimizadores en diversas configuraciones de tareas, flujos de trabajo y tamaños de equipo.

arxiv arXiv cs.LG · hace 4 h

Sobre los límites de los modelos de lenguaje condicionados por prompts como aprendedores de propósito general

Este artículo sostiene que los Modelos de Lenguaje Grande no son solucionadores universales de problemas mediante el uso exclusivo de prompts, debido a restricciones fundamentales en el lenguaje como interfaz de comunicación y requisitos de alineación. Los autores analizan la interacción usuario-sistema como un juego de cheap-talk para derivar cotas PAC-Bayes que distinguen el error de estimación de las limitaciones estructurales.

arxiv arXiv cs.LG · hace 4 h

Modelos de Lenguaje Afilados: Mejorar el Rendimiento mediante la Asignación de Capacidad Consciente de la Profundidad

El artículo introduce los Modelos de Lenguaje Afilados (TLMs), un principio arquitectónico que asigna más capacidad de parámetros a las capas iniciales y menos a las capas posteriores dentro de un presupuesto fijo. Este enfoque desafía la práctica estándar de ancho uniforme en las capas al aprovechar la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo.

arxiv arXiv cs.LG · hace 4 h

PsyBridge: Un marco híbrido inteligente para la evaluación multidimensional de la salud mental

Este estudio presenta PsyBridge, un marco híbrido inteligente diseñado para abordar las limitaciones de las herramientas de detección de salud mental aisladas al integrar evaluaciones clínicamente validadas con perfiles cognitivos y de personalidad. El sistema utiliza una arquitectura modular y un mecanismo de agregación ponderada para generar clasificaciones de riesgo interpretables y recomendaciones de apoyo a la decisión.

arxiv arXiv cs.AI · hace 4 h

UnBias-Plus: Detectar, Explicar y Reescribir Sesgo

UnBias-Plus es un kit de herramientas de código abierto diseñado para abordar el sesgo persistente en el lenguaje natural al unificar capacidades de detección, explicación y reescritura neutral.

arxiv arXiv cs.LG · hace 4 h

Problema abierto: ¿Es efectivo AdamW bajo ruido de cola pesada?

Este artículo aborda la falta de una teoría rigurosa de convergencia para el optimizador AdamW en regímenes con ruido estocástico de gradiente pesado de cola, común en el preentrenamiento de grandes modelos de lenguaje. Cuestiona si AdamW puede converger bajo estas condiciones o si su acumulador de segundo momento crea una obstrucción genuina.

arxiv arXiv cs.LG · hace 4 h

Navegación semántica: diversidad controlable para la generación de imágenes

Este artículo presenta Semantic Browsing, un método para generar diversidad controlada en modelos de texto a imagen al imponer estructura a las muestras generadas con el fin de superar la falta de variación significativa en los sistemas actuales. El enfoque induce diversidad directamente a nivel textual en lugar de depender de variaciones estocásticas dentro del modelo.

arxiv arXiv cs.LG · hace 4 h

CoorDex: Coordinar los sesgos de cuerpo y mano para la locomoción-manipulación continua diestra en humanoides

Los autores presentan CoorDex, una tubería de aprendizaje que permite la manipulación diestra de alto grado de libertad en humanoides móviles al convertir el control del cuerpo y la mano en un control residual latente coordinado. Este enfoque permite que el humanoide Unitree G1 realice tareas complejas como agarrar botellas sin parar y abrir puertas de refrigerador mientras se mueve.

arxiv arXiv cs.LG · hace 4 h

AutoDex: Un sistema automatizado del mundo real para la recopilación de datos de agarre diestro

AutoDex es un sistema automatizado diseñado para cerrar el ciclo de la recopilación de datos de agarre diestro en el mundo real, gestionando la percepción, la ejecución, la etiquetación y el reinicio sin intervención humana. Aborda los problemas de escalabilidad de la teleoperación y la falta de certificación física en simulación generando candidatos de agarre y verificándolos en hardware real.

arxiv arXiv cs.AI · hace 4 h

Redes Neuronales Físicamente Informadas de Física Dura-Blanda Adaptativas para la Resolución Robusta de EDP con Restricciones en los Límites

Este estudio propone una red neuronal físicamente informada unificada dura-blanda (HSPINN) con ponderación adaptativa de la pérdida para abordar la lenta convergencia y la aplicación inexacta de las condiciones de frontera de las PINN convencionales. El marco aplica exactamente las condiciones de frontera de Dirichlet y periódicas mediante elevación analítica o enmascaramiento, mientras trata los residuos de las EDP y las condiciones iniciales como restricciones blandas equilibradas por una estrategia de softmax inverso-proporcional.

arxiv arXiv cs.AI · hace 4 h

Repensando las Backdoors de Grafos Moleculares bajo Admisión Consciente de la Química

El artículo presenta ChemGuard, un protocolo operativo que formaliza la etapa de admisión pasada por alto en los pipelines de aprendizaje molecular al requerir cadenas sanitizables y una reconstrucción gráfica consistente. Este marco revela que muchas backdoors basadas en grafos existentes pierden eficacia porque sus venenos son químicamente inválidos o inconsistentes con la representación.

arxiv arXiv cs.AI · hace 4 h

Medición y mitigación del sobreajuste en modelos de lenguaje grandes para tribunales multilingües de derecho penal

Este artículo aborda el desafío del sobreajuste en modelos de lenguaje grandes utilizados en contextos de derecho penal del Tribunal Federal Suizo, donde las barreras de seguridad del modelo frecuentemente activan rechazos al procesar detalles sensibles de casos. Los autores presentan TF-RefusalBench, una evaluación multilingüe derivada de fallos públicos, para medir este fenómeno en francés, alemán, italiano e inglés.

arxiv arXiv cs.AI · hace 4 h

Transformers basados en energía como predictores de la dificultad de lectura

Este estudio presenta transformers basados en energía como una nueva medida para predecir la dificultad de lectura humana, estableciendo un vínculo formal entre los modelos transformer y la literatura sobre memoria asociativa, como las redes de Hopfield.