Навчання ШІ стає цікавим, особливо для розподілених навчальних мереж, які навчають моделі, що менші за графічні процесори, на яких вони навчаються. Більшість мереж навчають моделі обсягом 1,5B, 3B та 8B, щоб вони вміщалися на споживчих графічних процесорах.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
17 лайків
Нагородити
17
5
Поділіться
Прокоментувати
0/400
GamefiEscapeArtist
· 07-28 03:18
Ця конфігурація параметрів виглядає складно.
Переглянути оригіналвідповісти на0
TokenStorm
· 07-27 12:20
1.5B також вважається навчанням? Коофіцієнт коливання з невеликою кількістю даних занадто високий.
Переглянути оригіналвідповісти на0
DeFiCaffeinator
· 07-27 12:16
Тепер вже ватт?
Переглянути оригіналвідповісти на0
SchrodingerGas
· 07-27 12:10
Цікавість ефективності помітно менша за оптимальний парето-еквілібрій.
Навчання ШІ стає цікавим, особливо для розподілених навчальних мереж, які навчають моделі, що менші за графічні процесори, на яких вони навчаються. Більшість мереж навчають моделі обсягом 1,5B, 3B та 8B, щоб вони вміщалися на споживчих графічних процесорах.