Llama 3.1 8B
Cette page rassemble les resultats observes pour Llama 3.1 8B afin de voir quelles cartes s'en sortent le mieux, a quel debit, et dans quelles conditions de test.
Ce qu'il faut regarder pour ce modele
- Paramètres actifs : 8B
- Paramètres totaux : 8B
- Contexte max : 128 000 tokens
Benchmarks GPU disponibles
-
H100 PCIe
· 144,49 t/s
en Q4_K_M
· contexte 1 024
-
H100 PCIe
· 144,49 t/s
en Q4_K_M
· contexte 1 024
-
A100 PCIe
· 138,31 t/s
en Q4_K_M
· contexte 1 024
-
A100 PCIe
· 138,31 t/s
en Q4_K_M
· contexte 1 024
-
A100 SXM 80GB
· 133,38 t/s
en Q4_K_M
· contexte 1 024
-
RTX 4090
· 127,74 t/s
en Q4_K_M
· contexte 1 024
-
RTX 4090
· 127,74 t/s
en Q4_K_M
· contexte 1 024
-
RTX 4090
· 122,56 t/s
en Q4_K_M
· contexte 1 024
-
RTX 4090
· 117,61 t/s
en Q4_K_M
· contexte 1 024
-
L40S
· 113,6 t/s
en Q4_K_M
· contexte 1 024