Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 113

MORL-A2C: Reordenador de Aprendizaje por Refuerzo Multiobjetivo para Salud

Los investigadores presentan MORL-A2C, una extensión de toma de decisiones secuenciales al sistema MOPI-HFRS que utiliza un algoritmo Actor-Crítico de Ventaja para optimizar el equilibrio entre la preferencia del usuario y la salud nutricional en las recomendaciones de alimentos.

media r/LocalLLaMA · hace 8 h

Construí un arnés de agente para modelos pequeños. Logré que Qwen 3.5 4b gestionara servidores.

El autor desarrolló un arnés de agente especializado diseñado para abordar los modos de fallo específicos de los modelos locales pequeños, como llamadas a herramientas fallidas y un pobre seguimiento del estado. Este marco personalizado permite que modelos más pequeños como Qwen 3.5 4b gestionen eficazmente servidores remotos.

media r/LocalLLaMA · hace 8 h

El modo de ejecución local convierte una imagen en un personaje adorable y controlable que puedes usar

El autor presenta la versión de 800M de un modelo que convierte imágenes en personajes controlables, diseñado para ejecutarse cómodamente en GPUs de consumo. Esta iteración aumenta el contexto a 12 cuadros latentes y mejora la estabilidad mientras mantiene un alto rendimiento, logrando más de 60 fps en una RTX 5090.

media Hugging Face Forums · hace 8 h

HoLo-ToLk: Modelos de habla sin tokenizador en sustrato HSL de 0 parámetros

El autor presenta HoLo-ToLk, un proyecto de investigación que construye modelos de habla a texto (STT) y texto a habla (TTS) utilizando el sustrato de bytes HSL de cero parámetros sin tokenizadores ni incrustaciones de entrada aprendidas. El trabajo demuestra que los bytes HSL en bruto pueden servir como una señal viable para el procesamiento de audio cuando se combinan con modificaciones arquitectónicas específicas.

github llama.cpp · hace 8 h

la versión b9837 de llama.cpp añade la bandera --reasoning-preserve y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9837, que introduce una nueva bandera `--reasoning-preserve` para la plantilla de chat Jinja con el fin de conservar los tokens de razonamiento. Esta actualización también incluye mensajes de ayuda corregidos y proporciona binarios precompilados para macOS, Linux, Windows, Android y openEuler en varios backends de hardware.

lab OpenAI News · hace 8 h

HP Inc. lanza una alianza estratégica con OpenAI en la frontera

HP Inc. está ampliando su alianza estratégica con OpenAI tras pilotos exitosos, desplegando IA en experiencias de clientes, productividad de empleados y desarrollo de software. La empresa utiliza la plataforma Frontier de OpenAI como un modelo operativo unificado para gobernar el contexto, los permisos y la evaluación a medida que avanza desde casos de uso experimentales hacia producción en toda la empresa.

arxiv arXiv cs.LG · hace 9 h

Resolver para el hiperparámetro, omitir la búsqueda: Leyes de escala óptimas de Kolmogorov para regresión por splines

El artículo presenta KORE, un método que determina la resolución óptima de la regresión por splines en forma cerrada en lugar de mediante una búsqueda exhaustiva de hiperparámetros. Al aprovechar la teoría clásica de aproximación y la identidad PRESS, equilibra analíticamente las escalas de sesgo y ruido para lograr una precisión comparable a los barridos de cuadrícula con significativamente menos cómputo.

arxiv arXiv cs.LG · hace 9 h

Las Redes de Kolmogorov-Arnold Polinomiales Aprenden la Dinámica del Juego de la Vida

Este estudio demuestra que las redes neuronales pueden aprender de manera confiable la dinámica del Juego de la Vida de Conway utilizando arquitecturas mínimas mediante el empleo de sesgos inductivos específicos en lugar de depender de procesos de búsqueda a gran escala. Los autores muestran que las variantes de red con funciones de activación alternativas superan significativamente a las Unidades Lineales Rectificadas estándar, particularmente a través del uso de activaciones polinomiales de segundo grado.

arxiv arXiv cs.LG · hace 9 h

Cuantificación del acuerdo entre influencia de datos y similitud de datos en LLMs

Este estudio cuantifica el acuerdo entre las medidas de similitud de datos e influencia de datos utilizadas para rastrear las salidas de los LLMs hasta los datos de entrenamiento, revelando una superposición significativa con una asimetría donde la influencia de datos clasifica más consistentemente los documentos más similares. Los experimentos en modelos como OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B y GPT2 demuestran que esta asimetría permite una compensación favorable entre costo y precisión al usar la influencia de datos para refinar los resultados más económicos de la similitud de datos.

arxiv arXiv cs.LG · hace 9 h

Redes neuronales como regresión lineal: una introducción para estadísticos

Este artículo introduce las redes neuronales a los estadísticos desmitificando el campo desde la perspectiva de la aproximación por regresión lineal.

arxiv arXiv cs.LG · hace 9 h

Escalando la conectividad de modos lineales y la fusión en transformadores preentrenados de miles de millones de parámetros

Los investigadores proponen un marco escalable para fusionar transformadores de miles de millones de parámetros entrenados independientemente utilizando conectividad de modos lineales, abordando los límites de escalabilidad en métodos existentes. El enfoque emplea transformaciones de pesos que preservan la función y un procedimiento de aprendizaje dual donde ambos modelos optimizan conjuntamente hacia una trayectoria de interpolación lineal compartida.

arxiv arXiv cs.LG · hace 9 h

Descubrimiento causal en la era de los agentes

El artículo argumenta en contra del uso de modelos de lenguaje grandes para inferir estructuras causales, advirtiendo que tales enfoques corren el riesgo de confundir asociaciones textuales con evidencia causal genuina. En su lugar, propone que los agentes solo deben asistir el flujo de trabajo inspeccionando datos y explicando supuestos, mientras se mantiene que las afirmaciones causales estén fundamentadas en algoritmos formales y diagnósticos.

media r/LocalLLaMA · hace 9 h

Un usuario ejecuta Qwen3.6-27B en hardware de gama baja para POCs de construcción

Un usuario de Reddit demuestra la ejecución del modelo Qwen3.6-27B cuantizado a Q3 con KV en Q8 en una GPU AMD Mi50 de 32 GB, logrando aproximadamente 180+ tokens por segundo para el procesamiento de prompts y 9 tokens por segundo para la generación de texto.

media r/LocalLLaMA · hace 9 h

Motor de NPC que utiliza modelos locales

Un desarrollador ha creado un backend de motor de NPC agnóstico al juego que aprovecha modelos locales pequeños para lograr tiempos de respuesta rápidos y una calidad decente para juegos de rol. El sistema utiliza NVIDIA Parakeet 0.6 para la conversión de voz a texto, Gemma 4 26B A4B como LLM y Qwen3-TTS para la síntesis de voz.

media r/LocalLLaMA · hace 9 h

Rendimiento de la división de tensores en eGPUs con bajo ancho de banda (TB3), y una pregunta

Un usuario informa haber probado el modo de división de tensores con dos eGPUs Morefine G1 4090M de 16GB conectadas mediante Thunderbolt 3 a 40Gbps. Mientras que el modo de división por capas produce altas tasas de tokens para el prellenado (PP) y la generación de texto (TG), el modo de división de tensores satura ambas tarjetas durante TG pero sufre de un mal rendimiento en PP debido a la saturación del ancho de banda.

arxiv arXiv cs.LG · hace 10 h

Descubriendo grupos latentes para clasificación robusta

Los autores proponen árboles de clasificación neural (NCT), un marco que logra robustez al codificar la estructura de subgrupos dentro de su arquitectura en forma de árbol para abordar correlaciones espurias en modelos de aprendizaje automático.

arxiv arXiv cs.LG · hace 10 h

Selección de datos mediante autofiltrado iterativo para entornos de visión-lenguaje

Los investigadores proponen un método bootstrap novel llamado Autofiltrado que entrena un modelo CLIP en un conjunto de datos en evolución seleccionado mediante autofiltrado iterativo. Este enfoque equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución para mitigar el ruido en conjuntos de datos de visión-lenguaje a gran escala.

arxiv arXiv cs.LG · hace 10 h

Hedgementation: Un benchmark de teledetección para la segmentación de setos

Los autores proponen Hedgementation, un nuevo benchmark diseñado para evaluar modelos de aprendizaje automático para mapear setos a partir de datos de teledetección a escala nacional con una resolución espacial de 10m². Esta iniciativa combina y armoniza múltiples productos de teledetección y etiquetas de verdad derivadas de un inventario francés de setos.

arxiv arXiv cs.LG · hace 10 h

RECALL: Colección de Experiencias de Recuperación para Aprendizaje Continuo Activo en Modelos Visión-Lenguaje-Acción

Este artículo propone un paradigma de aprendizaje continuo activo para modelos Visión-Lenguaje-Acción (VLA) con el fin de abordar las ineficiencias del aprendizaje por imitación pasiva. Los autores demuestran que la recolección de datos guiada por incertidumbre mejora la eficiencia del ajuste fino, pero provoca un olvido catastrófico cuando se utilizan exclusivamente los datos de recuperación.

arxiv arXiv cs.LG · hace 10 h

DiT-Reward: Representaciones generativas para modelado de recompensas de texto a imagen

El artículo presenta DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa procesando latentes de imágenes casi limpias y agregando representaciones condicionadas por texto a través de las capas del transformer. Este enfoque aprovecha las representaciones generativas para evaluar la calidad de las imágenes generadas sin requerir objetivos de entrenamiento separados.