Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 1 h En vivo

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 1 h En vivo

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

media r/LocalLLaMA · hace 1 h En vivo

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

arxiv arXiv cs.CL · hace 1 h En vivo

Alineación fallida en LLMs: Un estudio cuantitativo

Un nuevo estudio presenta VETO, un conjunto de datos de 2.032 pares contrastivos derivados de BBQ, para cuantificar la alineación fallida en modelos de lenguaje grandes. Define la Tasa de Alineación Fallida (MAR) y encuentra que todos los LLMs evaluados exhiben MARs entre 4.7% y 18.9%, mientras que los participantes humanos logran 0%. La investigación muestra que las señales de alineación pueden amplificar estos fallos, con supresión de evidencia que ocurre en las capas tardías de los modelos y emerge después del entrenamiento por instrucciones.