CoinProphet_ETH

Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.
LL2.22%