Tous les articles
github llama.cpp · il y a 23 h

llama.cpp b9857 release : rework de Flash Attention et nouveaux binaires

La version b9857 de llama.cpp introduit une refonte complète de l'implémentation Hexagon Flash Attention, axée sur les optimisations et les améliorations de précision. Cette mise à jour comprend des modifications significatives des modules hex-mm et hex-fa, telles que le regroupement des tâches de quantification dans les threads principaux de matmul, la fusion avec les opérations ADD et l'optimisation du traitement des masques.

lab Anthropic News · il y a 2 j

Anthropic redéploie Fable 5 suite aux contrôles à l'exportation américains

Anthropic restaure l'accès mondial à ses modèles Claude Fable 5 et Mythos 5 après que le gouvernement américain a levé les contrôles à l'exportation qui avaient suspendu la disponibilité pour tous les utilisateurs. Fable 5 sera disponible mondialement à partir du 1er juillet sur la plateforme Claude, avec des limites d'utilisation applicables jusqu'au 7 juillet avant de passer à un accès basé sur les crédits.

github llama.cpp · il y a 2 j

llama.cpp b9850 release : corrections pour Qwen3 et nouveaux binaires

La version b9850 de llama.cpp introduit des mises à jour spécifiques du support des modèles, notamment l'enregistrement du tenseur t_layer_inp pour Qwen3Next, la correction de l'affectation d'entrée dans la boucle de traitement des couches, et la résolution des problèmes DFLASH pour qwen-coder-next. Elle ajoute également un tenseur pour la normalisation de l'attention dans le modèle Qwen3.