Todos los artículos
media r/LocalLLaMA · hace 13 d

Observando cómo un asistente de voz local con IA se vuelve menos inteligente

Una prueba en una RTX 5060 Ti mostró que reducir el tamaño del modelo de un asistente de voz local con IA de 9B a 0.8B provoca un descenso pronunciado en la capacidad. El modelo de 9B maneja bien la orquestación de herramientas, mientras que los modelos más pequeños muestran fallos crecientes: el modelo de 4B omite las llamadas a herramientas y adivina hechos, el modelo de 2B sufre deriva semántica, y el modelo de 0.8B falla en operar funciones de agente, activando APIs incorrectas o bucles infinitos.

github llama.cpp · hace 13 d

llama.cpp release b9723 añade soporte para Qwen3.5 y Qwen3.6 Eagle3

La versión b9723 de llama.cpp introduce soporte para los modelos Qwen3.5 y Qwen3.6 a través de Eagle3. La liberación incluye restauración diferida de puntos de control de frontera para modelos híbridos y actualizaciones en las convenciones de API y nomenclatura. Las compilaciones binarias están disponibles para las plataformas macOS, Linux, Android, Windows y openEuler, con opciones para CPU, Vulkan, OpenVINO, SYCL y ROCm.

media r/LocalLLaMA · hace 13 d

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

El equipo de PLN de la Universidad Estatal de Ohio ha lanzado QUEST-35B, un agente de investigación profunda de código abierto entrenado en aproximadamente 32 GPUs H100 utilizando 8.000 muestras sintéticas. El equipo ha liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda de código cerrado.

media r/LocalLLaMA · hace 13 d

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

Los investigadores de la Universidad Estatal de Ohio entrenaron QUEST-35B, un agente de investigación profunda, utilizando aproximadamente 32 GPUs H100 y 8.000 muestras sintéticas. Han liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda propietarios.