CoinProphet_ETH

Alors maintenant, où cela aura du sens pour l'inférence, nous avons à peine adapté les instances Q8 Qwen Coder 3 et Kimi K2 sur nos H200. Kimi K2 @ Q8 n'a laissé aucune place pour un cache kv pour le contexte. Ces modèles pourraient-ils tenir sur une seule instance 8xB200 ? Probablement, nous allons essayer cette semaine.
LL2.22%