Todos los artículos
blog Simon Willison · hace 5 h

Uso de DSPy para evaluar y mejorar los prompts del sistema SQL del Agente Datasette

Simon Willison utilizó Claude Code con el modelo Fable 5 para automatizar la evaluación y optimización de los prompts del sistema para el Agente Datasette, enfocándose específicamente en su función de ejecución de consultas SQL solo de lectura. El proceso implicó instalar la última versión alpha de Datasette y DSPy para identificar debilidades en cómo el agente maneja la información del esquema.

media Hugging Face Forums · hace 8 h

Benchmarking de Solo y MoA en múltiples tareas

El artículo presenta resultados de benchmark que comparan modelos individuales frente a configuraciones de Mixture-of-Agents (MoA) en seis tareas: Bug, Tool, Arch, Clinical, DLQ y un promedio general. El framework de evaluación utilizó Hermes Agent v0.18, con puntuaciones generadas por ChatGPT 5.5 y Claude opus 4.8 basándose en una rúbrica que pondera Correctness, Completeness, Depth, Actionability, Clarity y Trust.

media r/LocalLLaMA · hace 9 h

El análisis de 2.3k aplicaciones de IA local revela 82 categorías y diversos casos de uso

Un análisis de la Mac App Store identificó 2,259 aplicaciones de IA local entre más de 20,000 entradas extraídas, destacando un ecosistema creciente de herramientas de nicho que empaquetan modelos con flujos de trabajo específicos. La encuesta cubre 82 categorías distintas, desde tareas comunes como transcripción y OCR hasta funciones especializadas como estilismo de armario y asistencia para la salud de mascotas.