Todos los artículos
media r/LocalLLaMA · hace 4 h

Desarrollador construye un entorno de trabajo LLM local-first y busca retroalimentación de la comunidad

Un desarrollador con 45 años de experiencia en software está completando un entorno de trabajo local-first para ejecutar modelos locales y de API, con lógica alrededor de múltiples agentes. El autor ha pasado seis meses construyendo herramientas para mejorar el flujo de trabajo de LLM local y ahora le pide a la comunidad qué características mejorarían su experiencia.

media r/LocalLLaMA · hace 5 h

Reseña del libro: Modelos de Lenguaje Pequeños Específicos del Dominio por Guglielmo Iozzia

Esta reseña evalúa el libro de Guglielmo Iozzia "Modelos de Lenguaje Pequeños Específicos del Dominio", que aboga por un cambio de paradigma desde los modelos de lenguaje grandes generalistas hacia modelos de lenguaje pequeños (SLM) especializados y ajustados finamente. El revisor argumenta que los SLM ofrecen un control, visibilidad y eficiencia de costos superiores para tareas específicas en comparación con el hype alrededor de la inteligencia artificial general.

media r/LocalLLaMA · hace 5 h

Pipeline de distill-on-idle para asistente de memoria en dispositivo usando modelos de 4B

El artículo detalla un enfoque de ingeniería para construir un asistente de IA local que convierte capturas de pantalla y transcripciones de reuniones en datos consultables utilizando únicamente modelos que se ejecutan eficientemente en portátiles. El sistema aprovecha el marco Vision de Apple para OCR, la distillación durante tiempos inactivos de un modelo Gemma de 4B y la recuperación híbrida para evitar cuellos de botella de rendimiento.

media r/LocalLLaMA · hace 6 h

Publicación de un entorno para evaluar VLMs en tus propios videos con ejecuciones trazadas

Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.

media r/LocalLLaMA · hace 6 h

El usuario pregunta si comprar una RTX Pro 6000 o dos DGX Sparks para desarrollo de IA local

Un usuario de Reddit busca recomendaciones de hardware para ejecutar múltiples modelos pequeños y medianos localmente para tareas de análisis, extracción y razonamiento de datos. El usuario tiene la intención de usar la configuración para la construcción de modelos, pruebas, creación de LoRA y destilación, mientras reserva modelos grandes en la nube como Opus para tareas complejas.

media r/LocalLLaMA · hace 6 h

Usuario de Reddit propone combinar RTX 5080 y 4060 para inferencia local de LLM

Un usuario de Reddit en la comunidad r/LocalLLaMA está considerando actualizar su hardware para mejorar la velocidad y capacidad de inferencia de los modelos Qwen, combinando una futura RTX 5080 con su actual RTX 4060. El usuario busca alcanzar al menos 20-40 tokens por segundo al ejecutar modelos Qwen 27B, utilizando los 24GB combinados de VRAM mediante división de tensores o capas en llama.cpp o vLLm. Está evaluando esta configuración asimétrica de doble GPU frente a otras opciones como la AMD R9700 AI Pro o 7900XTX, citando datos de benchmarks que sugieren ganancias de rendimiento limitadas para las tarjetas AMD en relación con su costo.