Este estudio investiga el rendimiento de los modelos de lenguaje pequeños durante la etapa de generación dentro de un sistema de Generación Aumentada por Recuperación (RAG). La investigación evalúa estos modelos utilizando conjuntos de datos diversos de código abierto y propietarios para evaluar su efectividad en varias áreas temáticas.
- Los modelos de lenguaje pequeños pueden ejecutarse directamente en el dispositivo sin requerir hardware GPU.
- El sistema opera dentro de un marco de tiempo razonable para la implementación en el dispositivo.
- Las evaluaciones utilizaron tanto conjuntos de datos de código abierto como propietarios que cubren diversos tipos de preguntas.
Los hallazgos demuestran que los sistemas RAG impulsados por modelos de lenguaje pequeños son viables para la ejecución en el dispositivo, ofreciendo una alternativa práctica a los grandes modelos que típicamente requieren recursos computacionales significativos.