Todos los artículos
media r/LocalLLaMA · hace 12 h

Bonsai-8B de 1 bit de PrismML supera a IBM Granite en llamada de herramientas en CPU con gramática

Una evaluación del modelo Bonsai-8B de 1 bit de PrismML contra IBM Granite y otros LLMs revela que Bonsai-8B logra la mayor precisión en llamadas de herramientas al usar decodificación restringida por gramática. La prueba, realizada en CPU con llama.cpp, destaca el papel crítico de las restricciones de salida para permitir que modelos pequeños y cuantizados funcionen eficazmente en tareas de agentes.

media r/LocalLLaMA · hace 12 h

Backend de LLM local de código abierto para conversaciones entre NPCs

El autor ha lanzado un backend de voz a voz completamente local y de código abierto diseñado para NPCs de Modelos de Lenguaje Grande que permite interacciones directas entre NPC sin dependencia de la nube. El sistema integra componentes de voz a texto, un LLM local y texto a voz para permitir que los NPCs conversen entre sí, retengan el contexto e influyan en las interacciones futuras con el jugador.

media r/LocalLLaMA · hace 13 h

¿Qué hay en tu RAG?

Un usuario de Reddit cuestiona la utilidad práctica de la Generación Aumentada por Recuperación (RAG) para proyectos personales que implican programación, trabajo de sysadmin y pequeñas bases de código. El autor argumenta que el conocimiento estándar de la industria ya está bien cubierto por los modelos, mientras que las fuentes de datos específicas como bases de código o referencias de API son demasiado pequeñas para requerir indexación o demasiado grandes para gestionarse eficientemente.

media r/LocalLLaMA · hace 13 h

Un truco económico para una salida estructurada fiable: retroalimentar el error de validación en el reintento

Para mejorar la fiabilidad al generar salidas estructuradas a partir de modelos de lenguaje grandes, se propone un método que alimenta los errores de validación y la salida anterior del modelo de vuelta al prompt durante los reintentos. Este enfoque transforma el proceso de volver a tirar respuestas aleatorias a autocorregir errores específicos editando el intento previo.