Todos los artículos
media r/LocalLLaMA · hace 9 d

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media Hugging Face Forums · hace 9 d

Búsqueda de conjuntos de datos de documentos en lenguas indias para entrenamiento de IA/OCR en India

QuantVectors está buscando conjuntos de datos de documentos anotados en lenguas indias de la India, incluyendo hindi, maratí, guyaratí, bengalí, punjabi, tamil, urdu, telugu, oriya, kannada, malayalam y asamés. Los conjuntos de datos deben incluir tipos de facturas, recibos, facturas de servicios públicos, avisos de pago, listas de empaque, facturas comerciales y notas de crédito, con aproximadamente 400 documentos por idioma, anotaciones verificadas por humanos y una precisión del 99%+. Los conjuntos de datos deben ser licenciables comercialmente y pueden ser de código abierto o comerciales, solicitando conjuntos de datos de HuggingFace, conjuntos de datos de investigación o proveedores especializados en este ámbito.

media Hugging Face Forums · hace 9 d

Construí un nuevo LLM triple-híbrido de menos de 1B parámetros por ~$50

Mateusz ha desarrollado un modelo de lenguaje completamente preentrenado, Titan v1 de Project Inkblot, que combina Mamba SSM, Atención Multi-Cabeza y MoE de 32 expertos en una única arquitectura solo-decoder con menos de 1B parámetros. El modelo, entrenado en una única GPU NVIDIA L4 por ~$50, alcanza una perplejidad de validación de 27.5 y demuestra un escalado eficiente mediante una actualización de configuración de una sola línea, con todos los componentes implementados desde cero en PyTorch. El primer ciclo de entrenamiento de Titan v2 ya está completo y la expansión del conjunto de datos está en curso.

media Hugging Face Forums · hace 9 d

Modelos sustitutos de ML en CFD/MEF: Prácticas y desafíos del mundo real

Los profesionales de la ingeniería informan que las redes neuronales gráficas y los MLP en diseños parametrizados ofrecen el mejor equilibrio práctico para predecir campos como temperatura y tensión. La eficiencia de datos es alcanzable con 10–50 muestras de entrenamiento, especialmente cuando se aplica aprendizaje por transferencia entre geometrías similares. Las redes neuronales informadas por física (PINNs) siguen siendo principalmente experimentales para geometrías de ingeniería complejas, con la mayoría de los usuarios dependiendo de sustitutos basados en datos. La generalización sigue siendo un desafío clave, ya que los modelos a menudo fallan en condiciones de frontera fuera de la distribución, lo que impulsa un retorno a ejecuciones completas del solucionador.

media r/LocalLLaMA · hace 9 d

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

github llama.cpp · hace 10 d

Corrección para el fallo en edit_file al añadir contenido al final del archivo

Se corrigió un fallo en la edición de archivos al añadir contenido al final, normalizando -1 a n (inserción al final) en lugar de n+1. El parche restringe -1 al modo de adición y lo rechaza para operaciones de reemplazo/eliminación con el fin de evitar la sobrescritura silenciosa de la última línea, y asegura que el desplazamiento de inserción se calcule como un entero para evitar un desbordamiento del búfer en el montón.