Todos los artículos
arxiv arXiv cs.AI · hace 5 h

Memoria compartida gobernada para sistemas LLM multi-agente

Este artículo formaliza el problema de la memoria de flota en entornos LLM multi-agente, identificando cuatro modos fundamentales de fallo: fuga no autorizada, propagación obsoleta, persistencia de contradicciones y colapso de procedencia. Para abordar estos problemas, los autores definen primitivas explícitas a nivel del sistema que incluyen recuperación con ámbito, supresión temporal, seguimiento de procedencia y propagación de memoria gobernada por políticas.

arxiv arXiv cs.AI · hace 5 h

Convergencia Cuántica: Uniendo la Inversión en Valor Clásica con los Modelos de Factores Modernos

Esta investigación prueba si las reglas clásicas de inversión en valor de Benjamin Graham pueden actuar como un filtro matemático para evitar que los modelos complejos de aprendizaje automático memoricen el ruido del mercado. El estudio compara las reglas puras de Graham, los factores modernos y una combinación de ambos contra los modelos XGBoost y AutoGluon utilizando 20 años de datos del S&P 500.

arxiv arXiv cs.AI · hace 5 h

Sobrerechazo de pequeños LLM locales en contexto legal penal

Un estudio investiga el impacto del sobrerechazo en modelos de lenguaje grandes pequeños, ejecutados en dispositivo, al procesar prompts legales, encontrando que los prefijos de estilo autoritario aumentan sistemáticamente las tasas de rechazo entre 2 y 20 veces en comparación con una línea base sin prefijo. Si bien los prefijos de jailbreak mediante role-play mostraron efectos mixtos en diferentes modelos, los resultados indican que estos pequeños LLM son inestables bajo encuadres contextuales típicos de usuarios institucionales reales.

arxiv arXiv cs.AI · hace 5 h

ASALT: Alineación adaptativa del estado para transferencia lateral en aprendizaje por refuerzo multiagente

Este artículo presenta ASALT, un método para el aprendizaje de transferencia lateral en el aprendizaje por refuerzo multiagente que se adapta a las dimensionalidades desiguales del espacio de estados entre los dominios de origen y destino. El enfoque utiliza adaptadores a nivel de observación y a nivel de estado para mapear las entradas en un espacio de incrustación compartido, lo que permite una transferencia efectiva del conocimiento entre entornos heterogéneos.

media r/LocalLLaMA · hace 5 h

Proponiendo un conjunto de datos abierto unificado en lugar de entrenamiento descentralizado de LLM

El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

arxiv arXiv cs.AI · hace 7 h

Pronóstico longitudinal de la progresión de la enfermedad de Alzheimer con conciencia de incertidumbre utilizando aprendizaje profundo

Este estudio propone un marco probabilístico para el modelado longitudinal de la progresión de la enfermedad de Alzheimer que combina la predicción ordinal del diagnóstico, la generación de trayectorias multi-horizonte y la estimación descompuesta de la incertidumbre. El enfoque utiliza un codificador Temporal Fusion Transformer y una Red de Densidad de Mezclas autoregresiva para generar trayectorias probabilísticas a cinco años mientras cuantifica tanto la incertidumbre aleatoria como la epistémica.

arxiv arXiv cs.AI · hace 7 h

ScaleToT: Generalización del razonamiento estructurado de LLM para la modelización de usuarios de baja actividad a escala de miles de millones

El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.

arxiv arXiv cs.AI · hace 7 h

RAG que preserva la privacidad mediante reescritura semántica multiagente

Los autores proponen un marco de trabajo multiagente que sanitiza el contenido recuperado en sistemas de Generación Aumentada por Recuperación (RAG) mediante reescritura semántica para prevenir fugas de privacidad causadas por prompts maliciosos. Al emplear tres agentes especializados para la extracción de privacidad, análisis semántico y reconstrucción, el enfoque elimina identificadores sensibles mientras preserva el significado central del texto.