Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 67

Mejoras de Kokoro porteadas para proyectos web y Python

El autor ha lanzado versiones web y de Python de las mejoras en los controles de voz de Kokoro, diseñadas para ser fácilmente porteadas a otros proyectos. Ambas implementaciones son completamente del lado del cliente, con la versión web logrando aproximadamente 40ms por generación cuando la aceleración por hardware está habilitada mediante WebGPU.

media r/LocalLLaMA · hace 5 h

Nemotron-3-Super-120B-A12B logra recuperación perfecta de agujas hasta 504K tokens en 4×3090

Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.

media r/LocalLLaMA · hace 6 h

Pruebas de Qwen3.6-35B-A3B en RTX 3060 para extracción de recibos a JSON

Un usuario reemplazó Google Vision en una canalización de procesamiento de recibos con el modelo local Qwen3.6-35B-A3B ejecutándose en una GPU RTX 3060. El experimento demostró que la configuración local podía analizar correctamente los campos clave de recibos japoneses en formato JSON.

blog Simon Willison · hace 6 h

Timothy B. Lee sobre los LLM y las curvas de aprendizaje

Timothy B. Lee critica la noción de que el uso de modelos de lenguaje grandes no requiere habilidad ni curva de aprendizaje.

media r/LocalLLaMA · hace 6 h

Configuración para la versión beta diaria de llama.cpp con Vulkan en 7900xtx/ubuntu

Un usuario comparte un script de configuración bash para ejecutar el modelo Qwen3.6-35B-A3B IQ4_XS utilizando el backend de Vulkan en llama.cpp en una GPU AMD 7900 XTX con Ubuntu.

media r/LocalLLaMA · hace 6 h

Actualicé mi configuración económica a multi-GPU para inferencia

Un usuario actualizó una PC económica con dos RTX 3090 y una Intel Arc A770 para probar el rendimiento de inferencia multi-GPU usando llama.cpp. El hallazgo principal es que el backend de Vulkan causa una sobrecarga excesiva de memoria en comparación con CUDA, lo que lo hace inadecuado para configuraciones de proveedores mixtos.

media r/LocalLLaMA · hace 6 h

vulkan: hacer viable la TP por pwilkin · Pull Request #25051

Un pull request enviado al repositorio ggml-org/llama.cpp tiene como objetivo mejorar la viabilidad del Tensor Parallelism de Vulkan. El contribuidor, identificado como Piotr, ha implementado cambios destinados a hacer esta función más utilizable.

media r/LocalLLaMA · hace 6 h

Desarrollador construye un entorno de trabajo LLM local-first y busca retroalimentación de la comunidad

Un desarrollador con 45 años de experiencia en software está completando un entorno de trabajo local-first para ejecutar modelos locales y de API, con lógica alrededor de múltiples agentes. El autor ha pasado seis meses construyendo herramientas para mejorar el flujo de trabajo de LLM local y ahora le pide a la comunidad qué características mejorarían su experiencia.

media r/LocalLLaMA · hace 6 h

¿Por qué la gente sigue invirtiendo en Intel para IA?

El artículo cuestiona la justificación detrás de la clasificación de Wall Street de Intel como una inversión de "picks and shovels" de IA, preguntando quién está realmente comprando hardware de Intel para centros de datos de IA.

media r/LocalLLaMA · hace 7 h

Usuario de Reddit busca consejo sobre backends multi-modelo e intercambio de configuración

Un usuario de Reddit está planeando desplegar una máquina con múltiples GPUs para servir modelos de codificación y Hermes, buscando soluciones que permitan un intercambio flexible de configuración sin intervención manual.

media r/LocalLLaMA · hace 7 h

Considera el post-entrenamiento en lugar de la evaluación para nuevo hardware

El autor argumenta que la adquisición de nuevo hardware debería utilizarse para el ajuste fino supervisado (SFT) y el ajuste fino por refuerzo (RFT) en lugar de la evaluación estándar de modelos. Este enfoque ofrece una vía viable de monetización al aprovechar modelos de código abierto, especialmente a medida que las APIs propietarias se vuelven menos accesibles o más costosas.

blog Simon Willison · hace 7 h

2.000 personas intentaron hackear mi asistente de IA

Fernando Irarrázaval llevó a cabo un desafío en hackmyclaw.com para probar si 6.000 intentos podían filtrar secretos de su instancia de OpenClaw utilizando el modelo Opus 4.6.

blog Simon Willison · hace 7 h

Espectacular informe hipotético de incidente por Andrew Nesbitt

Andrew Nesbitt publicó un informe de incidente especulativo que detalla un escenario en el que dos agentes de revisión de IA de proveedores competidores entran en un bucle de desacuerdo sobre la seguridad del paquete 'foxhole-lz4'.

media r/LocalLLaMA · hace 7 h

STT médico en streaming ejecutándose localmente en un MacBook

Un desarrollador ha creado un modelo de voz a texto médico en streaming que opera completamente en el dispositivo, demostrado a través de MLX en un MacBook. El proyecto está actualmente undergoing further evaluations, con pesos abiertos planeados para su lanzamiento la próxima semana.

media r/LocalLLaMA · hace 7 h

Reseña del libro: Modelos de Lenguaje Pequeños Específicos del Dominio por Guglielmo Iozzia

Esta reseña evalúa el libro de Guglielmo Iozzia "Modelos de Lenguaje Pequeños Específicos del Dominio", que aboga por un cambio de paradigma desde los modelos de lenguaje grandes generalistas hacia modelos de lenguaje pequeños (SLM) especializados y ajustados finamente. El revisor argumenta que los SLM ofrecen un control, visibilidad y eficiencia de costos superiores para tareas específicas en comparación con el hype alrededor de la inteligencia artificial general.

media r/LocalLLaMA · hace 7 h

Pipeline de distill-on-idle para asistente de memoria en dispositivo usando modelos de 4B

El artículo detalla un enfoque de ingeniería para construir un asistente de IA local que convierte capturas de pantalla y transcripciones de reuniones en datos consultables utilizando únicamente modelos que se ejecutan eficientemente en portátiles. El sistema aprovecha el marco Vision de Apple para OCR, la distillación durante tiempos inactivos de un modelo Gemma de 4B y la recuperación híbrida para evitar cuellos de botella de rendimiento.

blog Simon Willison · hace 7 h

OpenAI presenta la serie GPT-5.6 con los modelos Sol, Terra y Luna

OpenAI ha iniciado una vista previa limitada de la serie de modelos GPT-5.6, presentando tres variantes distintas: Sol como modelo insignia, Terra para trabajo diario equilibrado y Luna para tareas rápidas y asequibles. La empresa planea hacer estos modelos disponibles al público en las próximas semanas tras esta fase inicial con socios de confianza.

media r/LocalLLaMA · hace 7 h

Usuario pide consejos sobre cómo utilizar 8 GPUs Tesla T4

Un usuario de Reddit ha adquirido ocho tarjetas de centro de datos Tesla T4 de servidores VDI retirados y está buscando recomendaciones sobre cómo utilizar las unidades restantes. Una tarjeta es actualmente funcional en un chasis DEG1, pero el resto requiere un caso de uso o una estrategia de configuración.

media r/LocalLLaMA · hace 7 h

Considerando actualizar de 2 x RTX 3090 a 4 x 5070 TI

Un usuario en r/LocalLLaMA está considerando actualizar su configuración de hardware de dos GPUs RTX 3090 a cuatro tarjetas RTX 5070 Ti, evaluando específicamente las implicaciones de rendimiento para inferencia de un solo flujo.

media r/LocalLLaMA · hace 7 h

Publicación de un entorno para evaluar VLMs en tus propios videos con ejecuciones trazadas

Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.