Llama 3.1 70B

Cette page rassemble les resultats observes pour Llama 3.1 70B afin de voir quelles cartes s'en sortent le mieux, a quel debit, et dans quelles conditions de test.

Ce qu'il faut regarder pour ce modele

Paramètres actifs : 70B
Paramètres totaux : 70B
Contexte max : 128 000 tokens

Benchmarks GPU disponibles

H100 PCIe · 26,2 t/s en Q4_K_M · contexte 1 024
H100 PCIe · 25,01 t/s en Q4_K_M · contexte 1 024
A100 SXM 80GB · 24,33 t/s en Q4_K_M · contexte 1 024
A100 PCIe · 22,68 t/s en Q4_K_M · contexte 1 024
A100 PCIe · 22,11 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 19,06 t/s en Q4_K_M · contexte 1 024
RTX 4090 · 18,83 t/s en Q4_K_M · contexte 1 024
RTX 3090 · 16,89 t/s en Q4_K_M · contexte 1 024
RTX 3090 · 16,29 t/s en Q4_K_M · contexte 1 024
L40S · 15,31 t/s en Q4_K_M · contexte 1 024

Voir comment choisir une carte adaptee a ce modele