Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 65

Usuario pide consejos sobre cómo utilizar 8 GPUs Tesla T4

Un usuario de Reddit ha adquirido ocho tarjetas de centro de datos Tesla T4 de servidores VDI retirados y está buscando recomendaciones sobre cómo utilizar las unidades restantes. Una tarjeta es actualmente funcional en un chasis DEG1, pero el resto requiere un caso de uso o una estrategia de configuración.

media r/LocalLLaMA · hace 4 h

Considerando actualizar de 2 x RTX 3090 a 4 x 5070 TI

Un usuario en r/LocalLLaMA está considerando actualizar su configuración de hardware de dos GPUs RTX 3090 a cuatro tarjetas RTX 5070 Ti, evaluando específicamente las implicaciones de rendimiento para inferencia de un solo flujo.

media r/LocalLLaMA · hace 4 h

Publicación de un entorno para evaluar VLMs en tus propios videos con ejecuciones trazadas

Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.

media r/LocalLLaMA · hace 4 h

Discusión en Reddit: Flujos de trabajo de IA local

Una publicación en la comunidad r/LocalLLaMA pide a los usuarios que compartan flujos de trabajo de IA local que hayan mejorado significativamente su productividad o utilidad. El autor invita específicamente a sugerencias sobre RAG, MCP, agentes de codificación, organización de prompts, indexación de documentos y automatización.

media r/LocalLLaMA · hace 4 h

El usuario pregunta si comprar una RTX Pro 6000 o dos DGX Sparks para desarrollo de IA local

Un usuario de Reddit busca recomendaciones de hardware para ejecutar múltiples modelos pequeños y medianos localmente para tareas de análisis, extracción y razonamiento de datos. El usuario tiene la intención de usar la configuración para la construcción de modelos, pruebas, creación de LoRA y destilación, mientras reserva modelos grandes en la nube como Opus para tareas complejas.

media r/LocalLLaMA · hace 4 h

Gemma 4 12b necesita gafas

Un usuario reporta frustración con la configuración de resolución de imagen predeterminada de Gemma 4, señalando que el modelo tiene dificultades para descifrar texto más pequeño y elementos composicionales más grandes en comparación con competidores como Qwen 3.6.

media r/LocalLLaMA · hace 4 h

Planificando un RIG de IA pequeño, 5 X 5060ti 16GB, tras vender mi 5090

Un usuario en Reddit está pidiendo opiniones sobre un plan para vender su Zotac Solid RTX 5090 con 128GB de RAM y reemplazarlo con cinco tarjetas RTX 5060 Ti de 16GB.

media r/LocalLLaMA · hace 4 h

cambio de vibra: puedo ver esto venir...

El contenido fuente proporcionado consiste únicamente en un título de publicación de Reddit y metadatos sin ningún texto de artículo ni información sustantiva acompañante.

media r/LocalLLaMA · hace 4 h

Usuario de Reddit propone combinar RTX 5080 y 4060 para inferencia local de LLM

Un usuario de Reddit en la comunidad r/LocalLLaMA está considerando actualizar su hardware para mejorar la velocidad y capacidad de inferencia de los modelos Qwen, combinando una futura RTX 5080 con su actual RTX 4060. El usuario busca alcanzar al menos 20-40 tokens por segundo al ejecutar modelos Qwen 27B, utilizando los 24GB combinados de VRAM mediante división de tensores o capas en llama.cpp o vLLm. Está evaluando esta configuración asimétrica de doble GPU frente a otras opciones como la AMD R9700 AI Pro o 7900XTX, citando datos de benchmarks que sugieren ganancias de rendimiento limitadas para las tarjetas AMD en relación con su costo.

media r/LocalLLaMA · hace 4 h

Explicador interactivo para decodificación especulativa y MTP

Un usuario ha publicado un explicador interactivo sobre el tema de la decodificación especulativa y la predicción de múltiples tokens (MTP). El recurso está disponible a través del enlace proporcionado en la publicación original.

media r/LocalLLaMA · hace 4 h

Optimizando llama.cpp + Qwen 27B en RTX PRO 6000 Blackwell para agentes de codificación

Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.

media r/LocalLLaMA · hace 4 h

Usuario de Reddit pregunta por experiencias con el modelo Ornith-1.0 9B

Un usuario de Reddit está preguntando si otros han probado el modelo Ornith-1.0 9B. El usuario pregunta específicamente si debería considerar usarlo en lugar de las variantes Qwen2.5-9B.

media r/LocalLLaMA · hace 4 h

KLD es defectuoso en la abliteración

Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.

media r/LocalLLaMA · hace 4 h

¿El modo de división de tensor de llama cpp causa problemas?

Un usuario informa que usar el modo de división de tensor en llama.cpp provoca problemas de bucle con las llamadas a herramientas y los trazos de razonamiento al ejecutar los modelos Qwen 27B y Gemma 4 26B (MoE) entre una RTX 5080 y dos RTX 5060 Ti.

media r/LocalLLaMA · hace 4 h

¿Cuánto tarda realmente el procesamiento de tu prompt al reanudar una sesión larga?

Un usuario de Reddit está pidiendo a la comunidad datos sobre cuánto tiempo se tarda en reanudar sesiones de agentes de codificación con contextos largos de 100k tokens o más. La consulta se dirige específicamente a usuarios que ejecutan estos agentes localmente.

media r/LocalLLaMA · hace 4 h

Impacto de PCIe 5.0 x8/x4 vs x8/x8 en inferencia con GPU dual

Un usuario pregunta si ejecutar dos GPUs en una configuración PCIe 5.0 x8/x4 en lugar de x8/x8 provoca caídas significativas de rendimiento para la inferencia de LLM.

arxiv arXiv cs.CL · hace 4 h

Composicionalidad y el léxico en la semántica evolutiva

Este artículo presenta un marco de modelado evolutivo que integra la semántica formal al permitir que los significados léxicos y las funciones composicionales coevolucionen bajo presiones por simplicidad conceptual y precisión comunicativa.

arxiv arXiv cs.CL · hace 4 h

Conectando el habla y el pensamiento: comprender la dinámica del diálogo en contextos de resolución colaborativa de problemas

Este artículo presenta un marco conceptual para analizar la dinámica del diálogo en contextos de resolución colaborativa de problemas, con un enfoque específico en las interacciones humano-IA y multiagente. Los autores argumentan que comprender estas interacciones dialógicas es crucial para optimizar las asociaciones a medida que los sistemas inteligentes ganan capacidades de razonamiento autónomo.

arxiv arXiv cs.CL · hace 4 h

LMs como Bases de Conocimiento Específicas para Tareas: Un Análisis de Interpretabilidad

Este estudio investiga si los modelos de lenguaje funcionan como bases de conocimiento consistentes al analizar si los hechos adquiridos durante una tarea permanecen accesibles en otras. La investigación revela que los LMs codifican el conocimiento de manera específica para la tarea, con subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.

arxiv arXiv cs.CL · hace 5 h

CARVE: Recurrencia Consciente del Contenido con Eficiencia de Valor para Atención Lineal Chunk-Paralela

La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.