Todos los artículos
media r/LocalLLaMA · hace 22 h

Benchmark para LLMs pequeños en búsqueda de archivos con lenguaje natural

Un benchmark evalúa LLMs pequeños (0.3B–3B parámetros) en la conversión de consultas en lenguaje natural a JSON estructurado, centrándose en el tipo de archivo, contexto temporal, especificidad y consultas combinadas. Los resultados muestran que los modelos con 0.8B–1.5B parámetros superan a los de menos de 0.5B, con el proyecto teniendo como objetivo ampliar el conjunto de pruebas y explorar el ajuste fino para mejorar el rendimiento.

media r/LocalLLaMA · hace 22 h

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.

media Hugging Face Forums · hace 23 h

Un usuario informa que el artículo está indexado pero ausente en los Artículos del Día

Un usuario en el foro de Hugging Face informa que su artículo de arXiv, "Agent-as-a-Router: Agentic Model Routing for Coding Tasks", fue indexado y reclamado con éxito, pero nunca apareció en la página principal de Daily Papers. A pesar de recibir votos positivos de la comunidad y vincular un conjunto de datos correspondiente, el artículo no ha sido destacado después de varios días.