Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 118

Aprendizaje por Refuerzo para Agentes de Uso Informático con Evaluación Autónoma

Los autores proponen un marco de ajuste fino basado en aprendizaje por refuerzo que utiliza la evaluación autónoma de visión y lenguaje como una señal de supervisión escalable para agentes de GUI, eliminando la necesidad de etiquetas manuales o heurísticas específicas de la tarea. Al tratar los comentarios del evaluador como un canal de recompensa binario ruidoso y derivar un estimador corregido por ruido para la Optimización de Política Próxima (Proximal Policy Optimization), el método aborda la dificultad de obtener recompensas legibles por máquina en entornos de escritorio de propósito general.

arxiv arXiv cs.AI · hace 3 h

AdversaBench: Red-teaming automatizado de LLM con confirmación de múltiples jueces y transferibilidad entre modelos

Los autores presentan AdversaBench, una pipeline de red-teaming end-to-end que genera entradas difíciles para grandes modelos de lenguaje utilizando cinco operadores de mutación estructurados y confirma fallos mediante un panel de tres jueces con desempate por un meta-juez.

media r/LocalLLaMA · hace 3 h

Samsung, SK Hynix y Micron demandados en EE. UU. por fijación de precios de memoria

Se ha presentado una demanda en Estados Unidos contra los principales fabricantes de chips de memoria Samsung, SK Hynix y Micron por alegaciones de fijación de precios.

blog Simon Willison · hace 3 h

Ornith-1.0: Autoandamiaje de LLMs para Codificación Agéntica

DeepReinforce ha lanzado Ornith-1.0, un modelo de pesos abiertos con licencia MIT que alcanza un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en benchmarks de codificación. El modelo se basa en las bases preentrenadas Gemma 4 y Qwen 3.5 e incluye variantes con recuentos de parámetros de 9B Dense, 31B Dense, 35B MoE y 397B MoE.

media r/LocalLLaMA · hace 3 h

Artículo de Arxiv en espera durante 2 meses.

Un investigador que presenta su primer artículo en arXiv informa que el manuscrito ha estado bajo revisión por moderadores durante dos meses a pesar de pasar las verificaciones automáticas de calificación. El autor pregunta si este retraso es normal y solicita consejos sobre si volver a enviar o continuar esperando.

github llama.cpp · hace 3 h

Lanzamiento b9842 de llama.cpp: deduplicación de presets y entradas de modelo en caché en /v1/models

El lanzamiento b9842 de llama.cpp introduce un cambio para deduplicar las entradas de preset y de modelo en caché en el endpoint /v1/models. Esta actualización está firmada por Adrien Gallouët de Hugging Face.

arxiv arXiv cs.AI · hace 4 h

Póster: Explorando los límites de la detección basada en audio de estafas telefónicas turcas

Esta investigación investiga el uso de modelos de lenguaje grandes para detectar llamadas telefónicas fraudulentas en turco, un idioma con pocos recursos donde los datos anotados son escasos. El estudio presenta el primer conjunto de datos multimodal público que contiene 100 pares alineados de audio y transcripción de conversaciones fraudulentas y benignas.

arxiv arXiv cs.AI · hace 4 h

Memoria compartida gobernada para sistemas LLM multi-agente

Este artículo formaliza el problema de la memoria de flota en entornos LLM multi-agente, identificando cuatro modos fundamentales de fallo: fuga no autorizada, propagación obsoleta, persistencia de contradicciones y colapso de procedencia. Para abordar estos problemas, los autores definen primitivas explícitas a nivel del sistema que incluyen recuperación con ámbito, supresión temporal, seguimiento de procedencia y propagación de memoria gobernada por políticas.

arxiv arXiv cs.AI · hace 4 h

Convergencia Cuántica: Uniendo la Inversión en Valor Clásica con los Modelos de Factores Modernos

Esta investigación prueba si las reglas clásicas de inversión en valor de Benjamin Graham pueden actuar como un filtro matemático para evitar que los modelos complejos de aprendizaje automático memoricen el ruido del mercado. El estudio compara las reglas puras de Graham, los factores modernos y una combinación de ambos contra los modelos XGBoost y AutoGluon utilizando 20 años de datos del S&P 500.

arxiv arXiv cs.AI · hace 4 h

Sobrerechazo de pequeños LLM locales en contexto legal penal

Un estudio investiga el impacto del sobrerechazo en modelos de lenguaje grandes pequeños, ejecutados en dispositivo, al procesar prompts legales, encontrando que los prefijos de estilo autoritario aumentan sistemáticamente las tasas de rechazo entre 2 y 20 veces en comparación con una línea base sin prefijo. Si bien los prefijos de jailbreak mediante role-play mostraron efectos mixtos en diferentes modelos, los resultados indican que estos pequeños LLM son inestables bajo encuadres contextuales típicos de usuarios institucionales reales.

arxiv arXiv cs.AI · hace 4 h

ASALT: Alineación adaptativa del estado para transferencia lateral en aprendizaje por refuerzo multiagente

Este artículo presenta ASALT, un método para el aprendizaje de transferencia lateral en el aprendizaje por refuerzo multiagente que se adapta a las dimensionalidades desiguales del espacio de estados entre los dominios de origen y destino. El enfoque utiliza adaptadores a nivel de observación y a nivel de estado para mapear las entradas en un espacio de incrustación compartido, lo que permite una transferencia efectiva del conocimiento entre entornos heterogéneos.

media r/LocalLLaMA · hace 4 h

Valor de GPU dual: paralelismo sobre tamaño del modelo para LLMs locales

El autor argumenta que actualizar de una a dos GPUs ofrece mayores beneficios mediante el procesamiento paralelo en lugar de habilitar el uso de cuantizaciones de modelos más grandes y de mayor calidad. Para tareas de programación, la diferencia de calidad entre las cuantizaciones Q4 y Q6/Q8 es mínima, haciendo que un mayor contexto y throughput sean más valiosos.

media r/LocalLLaMA · hace 4 h

¡Efecto de GLM 5.2 !!

Un usuario de Reddit compartió una imagen titulada "Efecto de GLM 5.2 !!" en el subreddit r/LocalLLaMA.

media r/LocalLLaMA · hace 4 h

Proponiendo un conjunto de datos abierto unificado en lugar de entrenamiento descentralizado de LLM

El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

media r/LocalLLaMA · hace 4 h

La GPU de Bolt Graphics contará con 2 ranuras DIMM DDR5 para portátil

Bolt Graphics está desarrollando una GPU que incluye dos ranuras SODIMM DDR5 para memoria de desbordamiento, con el objetivo de alcanzar la producción completa para Navidad de 2027. La compañía tiene prototipos funcionales y dirige a los creadores como su audiencia inicial.

arxiv arXiv cs.AI · hace 5 h

Pronóstico longitudinal de la progresión de la enfermedad de Alzheimer con conciencia de incertidumbre utilizando aprendizaje profundo

Este estudio propone un marco probabilístico para el modelado longitudinal de la progresión de la enfermedad de Alzheimer que combina la predicción ordinal del diagnóstico, la generación de trayectorias multi-horizonte y la estimación descompuesta de la incertidumbre. El enfoque utiliza un codificador Temporal Fusion Transformer y una Red de Densidad de Mezclas autoregresiva para generar trayectorias probabilísticas a cinco años mientras cuantifica tanto la incertidumbre aleatoria como la epistémica.

arxiv arXiv cs.AI · hace 5 h

ScaleToT: Generalización del razonamiento estructurado de LLM para la modelización de usuarios de baja actividad a escala de miles de millones

El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.

arxiv arXiv cs.AI · hace 5 h

Abstracciones de consultas en el acceso a datos basado en ontologías

Este artículo aborda la abstracción de consultas en el acceso a datos basado en ontologías (OBDA) traduciendo las consultas de datos a la capa de ontología utilizando reglas existenciales y semántica de respuestas ciertas.

arxiv arXiv cs.AI · hace 5 h

Cuando fallan las PC: Desafíos en la verificación de PC con asistencia de OE

Este artículo investiga los desafíos de la verificación de Preguntas de Competencia (PC), un proceso donde las ontologías se evalúan contra preguntas en lenguaje natural para garantizar una modelación adecuada. Los autores analizan por qué las PC se vuelven difíciles y cómo un asistente de LLM puede apoyar a los usuarios durante esta evaluación.

arxiv arXiv cs.AI · hace 5 h

Causalidad infinitesimal

Este artículo presenta una descripción categórica de la causalidad infinitesimal en categorías de Markov de Frobenius equipadas con semántica del fibrado tangente. Define la suficiencia causal mediante la compatibilidad de dos estructuras de Frobenius distintas: una que codifica operaciones clásicas de variables y otra que representa integrabilidad geométrica.