Alors maintenant, où cela aura du sens pour l'inférence, nous avons à peine adapté les instances Q8 Qwen Coder 3 et Kimi K2 sur nos H200. Kimi K2 @ Q8 n'a laissé aucune place pour un cache kv pour le contexte. Ces modèles pourraient-ils tenir sur une seule instance 8xB200 ? Probablement, nous allons essayer cette semaine.

LL0.77%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Partager
Commentaire
0/400
HallucinationGrowervip
· Il y a 2h
Pourquoi faire autant de chichis ?
Voir l'originalRépondre0
TerraNeverForgetvip
· Il y a 2h
C’est trop, n’est-ce pas ?
Voir l'originalRépondre0
FadCatchervip
· Il y a 2h
Comment cet espace de cache kv est-il déjà plein ?
Voir l'originalRépondre0
FloorSweepervip
· Il y a 2h
Les cartes graphiques ne rentrent même pas, que fait-on ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)