Un desarrollador ha lanzado una API gratuita y simple de Generación Aumentada por Recuperación (RAG) impulsada por artículos de Wikipedia médica para proporcionar a los modelos de lenguaje grandes locales información factual precisa. El servicio apunta a respuestas en menos de un segundo y actualmente se ejecuta en una única VPS ARM utilizando aproximadamente 2GB de RAM.

  • La API soporta el Protocolo de Contexto del Modelo (MCP) para facilitar la integración con agentes de IA.
  • Permite a los usuarios instruir a sus LLM para obtener hechos médicos directamente de la fuente en lugar de depender únicamente de los pesos del modelo.
  • Una demostración muestra cómo un modelo pequeño (qwen3.5-0.8B) alucina detalles cardíacos incorrectos sobre el signo de Lhermitte sin RAG, mientras que lo identifica correctamente como un síntoma neurológico al usar la API.

Esta herramienta ayuda a mitigar las alucinaciones en los LLM locales proporcionándoles datos médicos verificados que pueden no haber memorizado.