Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Los modelos locales pasaron de ser mayormente inútiles a realmente útiles en un año

Los modelos locales evolucionaron de juguetes centrados principalmente en la privacidad a herramientas prácticas para programación, gestión privada de documentos y flujos de trabajo locales en un año. Aunque aún no logran reemplazar a los mejores modelos cerrados para tareas complejas que requieren planificación y corrección de errores, la mejora general en usabilidad y rendimiento es evidente.

media r/LocalLLaMA · hace 14 d

Un año construyendo un asistente de voz para el hogar completamente local

Un desarrollador pasó 12 meses construyendo un asistente de voz local y de código abierto inspirado en Alexa, documentando los desafíos y el progreso. El proyecto buscaba crear una alternativa centrada en la privacidad utilizando modelos locales, con mejoras y correcciones continuas.

media r/LocalLLaMA · hace 14 d

GLM-5.2: Diseñado para tareas de largo alcance

GLM-5.2 es un modelo de lenguaje diseñado específicamente para tareas de largo alcance. Su objetivo es manejar mejor el razonamiento complejo y multi-etapa, así como la planificación a largo plazo, mejorando su capacidad para mantener el contexto en secuencias extendidas.

github llama.cpp · hace 14 d

llama.cpp libera b9680: nuevos binarios y soporte para Vulkan

llama.cpp lanza la versión b9680 con soporte actualizado para Vulkan y nuevos binarios para macOS, Linux, Android, Windows y openEuler. La liberación incluye variantes de CPU y GPU para múltiples arquitecturas, con soporte para Vulkan, CUDA, OpenVINO, SYCL y ROCm.

media r/LocalLLaMA · hace 14 d

Rio 3.5 397B probablemente un fracaso en el malversamiento de fondos para IA

Se informa que el modelo de IA Rio 3.5 397B fue desarrollado fusionando un Nex N2 Pro sin entrenamiento adicional, utilizando fondos destinados al desarrollo adecuado del modelo. La documentación oficial inicialmente afirmaba un entrenamiento avanzado, pero luego se actualizó para admitir la fusión superficial, mientras aún afirmaba que ocurrió entrenamiento adicional, y el modelo original fue eliminado de Hugging Face.

github llama.cpp · hace 14 d

llama.cpp lanza b9673 con asignaciones de sistema USM y binarios multiplataforma

La versión b9673 de llama.cpp introduce asignaciones de sistema USM opcionales para búferes de GPU ≥1GB, lo que permite el sobrecompromiso de VRAM cuando el dispositivo lo soporta. La función requiere la variable de entorno GGML_SYCL_USM_SYSTEM y está desactivada por defecto, volviendo a las asignaciones regulares si no es compatible.

media r/LocalLLaMA · hace 14 d

GLM-5.2 Max es actualmente el tercer mejor modelo

GLM-5.2 Max está clasificado como el tercer mejor modelo disponible, tanto entre modelos de código abierto como propietarios. La evaluación se basa en benchmarks de rendimiento y evaluaciones actuales en el campo de los modelos de lenguaje grandes.

blog Simon Willison · hace 14 d

Datasette 1.0a34 añade herramientas de edición y eliminación de filas

Datasette 1.0a34 introduce herramientas para insertar, editar y eliminar filas dentro de la interfaz. Estas funciones están disponibles en las páginas de tablas y como elementos de acción en las páginas de filas, abordando una capacidad largamente esperada en la UI.

media r/LocalLLaMA · hace 14 d

Buscando una herramienta alojada localmente para crear subtítulos en inglés a partir de vídeos

Un usuario busca una aplicación autocontenida y alojada localmente para generar subtítulos en inglés (en formato .srt o .ass) a partir de archivos de vídeo. Considera Qwen-ASR y Whisper como opciones sólidas, pero reporta un mal sincronismo de los subtítulos en las implementaciones de ComfyUI y un rendimiento poco fiable con modelos antiguos como los de storytoolkitAI. Pide recomendaciones que funcionen bien en Windows y puedan manejar múltiples idiomas.

blog Simon Willison · hace 14 d

click-to-play — una imagen fija que se reproduce

El componente Web click-to-play muestra una imagen estática con un botón de clic para reproducir que carga un GIF bajo demanda. Admite mejora progresiva, permitiendo que los GIFs se carguen solo cuando los usuarios interactúan con la imagen.

media Latent Space · hace 14 d

GLM-5.2 Reclama el Primer Puesto en Programación Frontend con Decodificación Especulativa

GLM-5.2, un modelo de 744B parámetros de Z.ai, ha sido evaluado como el mejor modelo de programación frontend a nivel mundial, superando a todas las versiones de Opus, incluyendo Opus 4.8. Este logro se destaca en evaluaciones de terceros que validan las pruebas oficiales offline, marcando un hito significativo para un modelo de su tamaño, particularmente en el competitivo dominio de la programación frontend.

media r/LocalLLaMA · hace 14 d

Comparativa de benchmarks entre RTX 5060 Ti 16GB y RX 9060 XT 16GB

Una comparativa de benchmarks muestra que la NVIDIA RTX 5060 Ti 16GB supera a la AMD RX 9060 XT 16GB en múltiples modelos LLM, con velocidades de tokens de respuesta y prompt más altas. Las mejoras de rendimiento son consistentes en modelos como Gemma3, Llama3.2 y Qwen3, con la RTX 5060 Ti mostrando un procesamiento de prompt notablemente más rápido, especialmente en modelos más grandes.

media r/LocalLLaMA · hace 14 d

Elias en el faro: diagnosticando la baja diversidad en historias de LLM

Un nuevo estudio examina la limitada diversidad en las historias generadas por modelos de lenguaje grandes, utilizando al personaje recurrente Elias en el faro como caso de estudio. La investigación destaca cómo tales patrones sugieren sesgos sistémicos en los datos de entrenamiento y las salidas del modelo.

arxiv arXiv cs.LG · hace 14 d

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens presenta un marco para auditar alucinaciones de IA en contextos legales mediante el análisis de perfiles tipificados de alucinaciones en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45%, ofreciendo diagnósticos accionables para el despliegue confiable de IA legal.

arxiv arXiv cs.LG · hace 14 d

Los Modelos de Difusión Enmascarados Recursivos Introducen un Nuevo Eje de Escalado

Los Modelos de Difusión Enmascarados Recursivos (R-MDMs) introducen la profundidad recursiva como un tercer eje de escalado al reaplicar un transformador de denoising dentro de cada paso de difusión. Esta recursión permite el refinamiento iterativo de la salida sin aumentar el número de parámetros, logrando un rendimiento comparable al de modelos no recursivos con hasta L veces más parámetros, donde L es el número de iteraciones. Los R-MDMs también reducen el cómputo de inferencia al reemplazar parcialmente los pasos de denoising con refinamiento recursivo.

arxiv arXiv cs.LG · hace 14 d

LoopCoder-v2 logra el rendimiento óptimo en bucles anidados

LoopCoder-v2, un modelo Transformer de bucles paralelos, alcanza un rendimiento superior en generación y razonamiento de código con dos bucles, mejorando SWE-bench Verified de 43.0 a 64.4 puntos y Multi-SWE de 14.0 a 31.0 puntos. Las variantes con tres o más bucles tienen un rendimiento peor, lo que indica un efecto no monótono del conteo de bucles debido al creciente desajuste posicional y rendimientos decrecientes.

arxiv arXiv cs.LG · hace 14 d

El olvido catastrófico es de bajo rango: una teoría en el espacio de funciones

Una teoría en el espacio de funciones revela que el olvido catastrófico en la adaptación continua se concentra en un pequeño número de modos propios NTK de tareas anteriores. En PEFT-CL con cabeza lineal y backbone congelado, el vector de olvido es exactamente predecible hasta la precisión numérica, con una regla de escalado de Kronecker para el rango vulnerable.

arxiv arXiv cs.LG · hace 14 d

INI-VPINN: Red neuronal informada por física con manejo implícito de fronteras

INI-VPINN es una red neuronal variacional informada por física que aplica implícitamente condiciones de Neumann e interfaz mediante funciones de ponderación de soporte compacto e integración por partes. Logra mayor precisión y convergencia más rápida que los métodos PINN existentes al resolver problemas multimatéricos con singularidades geométricas y condiciones mixtas de frontera, y está disponible públicamente en GitHub.

arxiv arXiv cs.LG · hace 14 d

Evaluación de referencia de LLMs de código abierto para clasificación multi-etiqueta de ATT&CK

Se construyó un conjunto de datos con verdad fundamental de 2,076 oraciones anotadas por humanos procedentes de 83 informes complejos de CTI y se asignaron a 114 técnicas de ATT&CK con \k{appa} = 0.68 de acuerdo entre anotadores. Se evaluaron siete LLMs de código abierto que oscilan entre 8B y 236B parámetros, alcanzando una puntuación F1 micro-promediada máxima de 0.22. El tamaño del parámetro mostró una correlación positiva estadísticamente significativa con la puntuación F1, mientras que la estrategia de prompt y la temperatura no produjeron mejoras significativas, lo que indica que los LLMs actuales de código abierto son insuficientes para la clasificación de ATT&CK de grado de producción.

arxiv arXiv cs.LG · hace 14 d

Cuantificación de la incertidumbre para modelos de visión-lenguaje-acción basados en flujos

Proponemos un método que utiliza el desacuerdo del campo de velocidades para cuantificar la incertidumbre epistémica en modelos de visión-lenguaje-acción basados en emparejamiento de flujos. Esta estimación de la incertidumbre permite la detección de fallos durante el despliegue y el ajuste fino activo a través del marco SAVE, que reduce las demostraciones expertas en al menos un 22% en comparación con los métodos base, con predicciones mejor calibradas en el benchmark LIBERO.