Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 116

Rendimiento lento de Unsloth Gemma 12B Q8

Un usuario reporta una caída significativa en la velocidad de inferencia al cambiar de GPT-OSS 20B Q4 a Gemma 4 12B Q8 usando llama.cpp, con un throughput que cae de aproximadamente 70 tokens por segundo a 10 tokens por segundo. El problema persiste incluso al probar una variante del modelo Q5 y desactivar la función de pensamiento, lo cual solo produjo una ganancia marginal de dos tokens adicionales por segundo.

github llama.cpp · hace 6 h

Lanzamiento de llama.cpp b9839 con corrección de escaneo Tailwind y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9839, que incluye una corrección para restaurar el escaneo de Tailwind en worktrees ignorados. Esta actualización proporciona binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de varias arquitecturas y backends de aceleración por hardware.

lab OpenAI News · hace 6 h

Mapeo de la oportunidad de la fuerza laboral de IA en Europa

OpenAI Economic Research ha extendido su Marco de Transición de Empleos de IA a la Unión Europea, utilizando la taxonomía ESCO y datos de Eurostat para analizar cómo las capacidades de IA pueden remodelar los mercados laborales en los estados miembros.

arxiv arXiv cs.LG · hace 7 h

Pronóstico selectivo de series temporales mediante metaaprendizaje

Este artículo presenta un marco de pronóstico selectivo que permite a los modelos abstenerse de realizar predicciones de alto riesgo al modelar el percentil empírico de los errores de pronóstico mediante metaaprendizaje. Al utilizar estadísticas invariantes a la escala derivadas de rezagos recientes, el método desacopla las decisiones de rechazo de los pronósticos para habilitar la transferencia entre series temporales heterogéneas.

arxiv arXiv cs.LG · hace 7 h

¿Los codificadores de ubicación capturan efectos espaciales? Una evaluación de GeoShapley a través de escalas

Este estudio evalúa si GeoShapley, un explicador basado en teoría de juegos, puede recuperar coeficientes variables espacialmente de modelos de aprendizaje automático utilizando incrustaciones de codificadores de ubicación. Once codificadores del marco TorchSpatial fueron evaluados frente a un proceso sintético con coeficientes conocidos en escalas de cuadrícula, condado y global.

arxiv arXiv cs.LG · hace 7 h

Clasificación de series temporales mediante deformación temporal difeomórfica (DiffTW)

El artículo presenta la Deformación Temporal Difeomórfica (DiffTW), un marco teórico para la clasificación de series temporales que aprende mapeos entre funciones de valores reales para superar las limitaciones del emparejamiento discreto de puntos de la Deformación Temporal Dinámica (DTW). DiffTW aproxima transformaciones difeomórficas utilizando el método de características para resolver ecuaciones de transporte lineales, proporcionando una medida de disimilitud con fundamentos teóricos.

arxiv arXiv cs.LG · hace 7 h

Las Redes Neuronales Profundas con Estructura Sublineal Logran Coherencia en el Aprendizaje de Características para Funciones Composicionales

Este estudio establece garantías de coherencia en el aprendizaje de características para una amplia subclase de redes neuronales profundas caracterizadas por un crecimiento sublineal en las dimensiones de entrada/salida y en las neuronas ocultas en relación con el tamaño de la muestra. Los autores demuestran que estas arquitecturas logran aproximación universal para funciones composicionales jerárquicas, incluso dentro del régimen sobreparametrizado convencional donde los parámetros superan a las muestras de entrenamiento.

arxiv arXiv cs.LG · hace 7 h

TROPT: Un marco abierto para unificar y avanzar la optimización de texto discreto

Se presenta TROPT como el primer marco de código abierto que unifica la optimización de disparadores de texto discreto, estandarizando la ejecución y el desarrollo bajo una única interfaz. Aborda la fragmentación actual permitiendo a los usuarios personalizar recetas de optimización de extremo a extremo mediante modelos, objetivos y optimizadores intercambiables.

arxiv arXiv cs.LG · hace 7 h

FLKit: Un kit de herramientas estructurado para la incorporación al aprendizaje federado en salud

FLKit es un kit de herramientas de incorporación abierto y mantenido por la comunidad, diseñado para ayudar a equipos multidisciplinarios a navegar el ciclo de vida del aprendizaje federado en investigaciones de salud y ciencias de la vida. Proporciona puntos de entrada conscientes del rol para contribuyentes clínicos, legales, de gobernanza y técnicos, abordando las barreras prácticas de marcos dispersos y obligaciones de gobernanza.

arxiv arXiv cs.LG · hace 7 h

FairBED: Un enfoque de diseño experimental bayesiano para recopilar datos más justos

El artículo presenta FairBED, un marco que modifica el propio proceso de adquisición de datos para recopilar datos inherentemente más justos, abordando los sesgos presentes en los conjuntos de datos existentes. Proporciona formulaciones novedosas para cuantificar la equidad del conjunto de datos basadas en el principio de que los conjuntos de datos justos no deben ser informativos sobre los atributos sensibles.

media r/LocalLLaMA · hace 7 h

DeepSeek V4 por am17an · Pull Request #24162 · ggml-org/llama.cpp

Una pull request enviada al repositorio ggml-org/llama.cpp permite la ejecución local del modelo DeepSeek V4.

arxiv arXiv cs.CL · hace 7 h

DMV-Bench: Diagnosticando la memoria visual de agentes multimodales de largo horizonte mediante inyección de pistas incidentales

Los investigadores presentan DMV-Bench, el primer benchmark interactivo diseñado para evaluar la memoria visual en agentes multimodales dentro de entornos controlados. El estudio propone DualMem, una arquitectura de memoria visual y verbal paralela que supera significativamente a los sistemas existentes en esta nueva herramienta de diagnóstico.

arxiv arXiv cs.LG · hace 8 h

Concordia: Puntos de control persistentes con núcleo JIT-compilado para inferencia tolerante a fallos de LLM

Este artículo presenta Concordia, un entorno de ejecución diseñado para proporcionar tolerancia a fallos en agentes LLM de larga duración manteniendo el estado valioso en las GPUs sin reiniciar la pila de servicio. El sistema utiliza un núcleo persistente residente en el dispositivo que se interpone en la carga del módulo GPU para admitir instrumentación a nivel PTX y SASS.

media r/LocalLLaMA · hace 8 h

GLM 5.2 Q1_S vs Qwen 27B Q8: Una comparación de LLM local

Una comparación amateur en hardware de consumo demuestra que el GLM-5.2 altamente cuantizado (Q1_S) supera al Qwen 3.6 27B de mayor precisión (Q8) en una tarea de codificación compleja, a pesar de velocidades de inferencia significativamente más lentas.

media r/LocalLLaMA · hace 8 h

Usuario de Reddit busca interfaz de chat con IA llamativa y rica en funciones, sobre opciones minimalistas

Un usuario de Reddit está pidiendo recomendaciones para interfaces de chat "llamativas" y cargadas de funciones, comparando específicamente LibreChat y OpenWebUI, para un amigo técnicamente inclinado pero analfabeto en IA.

media r/LocalLLaMA · hace 8 h

MiCA ahora forma parte de Hugging Face PEFT

El método MiCA (Minor Component Adaptation) se ha fusionado en la rama principal de la biblioteca PEFT de Hugging Face, permitiendo a los usuarios instalarlo directamente desde el código fuente. Se expone a través de la interfaz LoRA existente estableciendo `init_lora_weights="mica"`.

media r/LocalLLaMA · hace 8 h

AMD MI210 64GB vs DCU K100 64GB

Un usuario de Reddit compara los precios y especificaciones de las GPUs AMD Instinct MI210 64GB y la DCU K100 64GB china disponibles en el mercado chino de eBay. La discusión destaca que, aunque ambas tarjetas ofrecen capacidades de memoria similares, difieren significativamente en precio, ancho de banda y detalles arquitectónicos.

media r/LocalLLaMA · hace 8 h

Actualización: Primeros resultados manuales de pruebas sobre la transferencia de habilidades procedimentales en modelos pequeños

Un experimento manual evaluó si un andamio procedural generado por un modelo grande puede transferir disciplina de planificación a modelos más pequeños sin ajuste fino ni revelación de la respuesta objetivo. Los resultados indican que este enfoque mejora significativamente la legibilidad estructural y la composición en modelos pequeños cuando se aplica en diferentes dominios de Three.js.

arxiv arXiv cs.CL · hace 8 h

El enfoque del desarrollo revela el aprendizaje estadístico de los Modelos de Lenguaje Neuronales: los Transformers generalizan a partir de los patrones estadísticos más abstractos

Este estudio investiga el aprendizaje estadístico y la representación mental de los modelos de lenguaje neuronales mediante el entrenamiento de modelos Transformer generativos en una gramática sintética y el análisis de sus representaciones internas en diversas etapas.

arxiv arXiv cs.CL · hace 8 h

Supersede: Diagnosticar y entrenar la brecha de actualización de memoria en agentes LLM

Este artículo identifica un modo de fallo distinto en agentes de modelos de lenguaje grandes donde tienen dificultades para descartar hechos obsoletos en favor de los actuales, incluso cuando la comprensión está intacta. Los autores demuestran que esta "brecha de supresión" persiste a través de las escalas del modelo y los tamaños de memoria, lo que indica que es un cuello de botella entrenable en lugar de una limitación de la ventana de contexto o la fuerza del modelo.