Llama 3.1 8B

Cette page rassemble les resultats observes pour Llama 3.1 8B afin de voir quelles cartes s'en sortent le mieux, a quel debit, et dans quelles conditions de test.

Ce qu'il faut regarder pour ce modele

Paramètres actifs : 8B
Paramètres totaux : 8B
Contexte max : 128 000 tokens

Benchmarks GPU disponibles

H100 PCIe · 144,49 t/s en Q4_K_M · contexte 1 024
H100 PCIe · 144,49 t/s en Q4_K_M · contexte 1 024
A100 PCIe · 138,31 t/s en Q4_K_M · contexte 1 024
A100 PCIe · 138,31 t/s en Q4_K_M · contexte 1 024
A100 SXM 80GB · 133,38 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 127,74 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 127,74 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 122,56 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 117,61 t/s en Q4_K_M · contexte 1 024
L40S · 113,6 t/s en Q4_K_M · contexte 1 024

Voir comment choisir une carte adaptee a ce modele