2025-07-27 11:53:24

Então agora onde isso fará sentido para inferência, mal conseguimos encaixar os codificadores Q8 Qwen Coder 3 e Kimi K2 nas nossas H200s. Kimi K2 @ Q8 não deixou espaço para um cache kv para o contexto. Esses modelos poderiam caber em uma única instância 8xB200? Provavelmente, vamos tentar esta semana.

LL0.14%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

24 gostos

Recompensa
24
6
Partilhar

Comentar

0/400

ResearchChadButBroke

· 07-30 07:23

Quem entende de cache kv realmente é irritante.

Ver originalResponder0

DefiVeteran

· 07-28 15:52

A quantificação é bastante trabalhosa.

Ver originalResponder0

NonFungibleDegen

· 07-27 12:20

ngmi com estas especificações fr fr

Ver originalResponder0

FlippedSignal

· 07-27 12:18

Este Q8 é mesmo uma porcaria!

Ver originalResponder0

NotGonnaMakeIt

· 07-27 12:06

Esta otimização não está a funcionar, não consegue aguentar.

Ver originalResponder0

WalletDoomsDay

· 07-27 11:56

A memória deve ter sido liquidada, irmão.

Ver originalResponder0

Tópico
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
25k Popularidade
2White House Crypto Report
10k Popularidade
3Growth Points Draw Round 12 Opens
5k Popularidade
4Fed Holds Rates Decision
6k Popularidade
5Alpha Points System Opens
15k Popularidade

Pino