Todos los artículos
media r/LocalLLaMA · hace 4 h

Publicación de un entorno para evaluar VLMs en tus propios videos con ejecuciones trazadas

Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.

media r/LocalLLaMA · hace 4 h

El usuario pregunta si comprar una RTX Pro 6000 o dos DGX Sparks para desarrollo de IA local

Un usuario de Reddit busca recomendaciones de hardware para ejecutar múltiples modelos pequeños y medianos localmente para tareas de análisis, extracción y razonamiento de datos. El usuario tiene la intención de usar la configuración para la construcción de modelos, pruebas, creación de LoRA y destilación, mientras reserva modelos grandes en la nube como Opus para tareas complejas.

media r/LocalLLaMA · hace 4 h

Usuario de Reddit propone combinar RTX 5080 y 4060 para inferencia local de LLM

Un usuario de Reddit en la comunidad r/LocalLLaMA está considerando actualizar su hardware para mejorar la velocidad y capacidad de inferencia de los modelos Qwen, combinando una futura RTX 5080 con su actual RTX 4060. El usuario busca alcanzar al menos 20-40 tokens por segundo al ejecutar modelos Qwen 27B, utilizando los 24GB combinados de VRAM mediante división de tensores o capas en llama.cpp o vLLm. Está evaluando esta configuración asimétrica de doble GPU frente a otras opciones como la AMD R9700 AI Pro o 7900XTX, citando datos de benchmarks que sugieren ganancias de rendimiento limitadas para las tarjetas AMD en relación con su costo.

arxiv arXiv cs.CL · hace 4 h

Conectando el habla y el pensamiento: comprender la dinámica del diálogo en contextos de resolución colaborativa de problemas

Este artículo presenta un marco conceptual para analizar la dinámica del diálogo en contextos de resolución colaborativa de problemas, con un enfoque específico en las interacciones humano-IA y multiagente. Los autores argumentan que comprender estas interacciones dialógicas es crucial para optimizar las asociaciones a medida que los sistemas inteligentes ganan capacidades de razonamiento autónomo.

arxiv arXiv cs.CL · hace 4 h

LMs como Bases de Conocimiento Específicas para Tareas: Un Análisis de Interpretabilidad

Este estudio investiga si los modelos de lenguaje funcionan como bases de conocimiento consistentes al analizar si los hechos adquiridos durante una tarea permanecen accesibles en otras. La investigación revela que los LMs codifican el conocimiento de manera específica para la tarea, con subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.

arxiv arXiv cs.CL · hace 5 h

CARVE: Recurrencia Consciente del Contenido con Eficiencia de Valor para Atención Lineal Chunk-Paralela

La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.