Llama 3.3 70B

Cette page rassemble les resultats observes pour Llama 3.3 70B afin de voir quelles cartes s'en sortent le mieux, a quel debit, et dans quelles conditions de test.

Ce qu'il faut regarder pour ce modele

Paramètres actifs : 70B
Paramètres totaux : 70B
Contexte max : 128 000 tokens

Benchmarks GPU disponibles

RTX 4090 · 4 t/s en Q4_K_M · contexte 4 096

Voir comment choisir une carte adaptee a ce modele