Розвиток індустрії штучного інтелекту в останній час деякі люди вважають четвертою промисловою революцією. Поява великих моделей значно підвищила ефективність у різних галузях, за оцінками, підвищивши робочу продуктивність в США приблизно на 20%. Водночас універсальні можливості, які надають великі моделі, вважаються новою парадигмою програмного дизайну, де точний дизайн коду в минулому перетворився на більш універсальну структуру великих моделей, що дозволяє програмному забезпеченню мати кращу продуктивність і ширшу підтримку модальностей. Технології глибокого навчання дійсно принесли четвертий розквіт в індустрії штучного інтелекту, і ця хвиля також вплинула на індустрію криптовалют.
Цей звіт детально розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив технології глибокого навчання на індустрію. Глибокий аналіз сучасного стану та тенденцій розвитку ланцюга постачання, що включає GPU, хмарні обчислення, джерела даних, пристрої на краю тощо. В основному розгляне сутність взаємозв'язку між криптовалютою та індустрією штучного інтелекту, а також структуру ланцюга постачання AI, пов'язану з криптовалютою.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала своє існування з 50-х років XX століття. Для реалізації бачення штучного інтелекту в академічному та промисловому секторах протягом різних епох і в різних наукових дисциплінах було розроблено багато шкіл, що реалізують штучний інтелект.
Сучасні технології штучного інтелекту переважно використовують термін "машинне навчання", концепція якого полягає в тому, щоб машини, спираючись на дані, повторно ітеративно вдосконалювали продуктивність системи в завданнях. Основні етапи включають подачу даних до алгоритму, навчання моделі на цих даних, тестування та впровадження моделі, використання моделі для виконання автоматизованих прогнозних завдань.
На сьогоднішній день машинне навчання має три основні напрямки: коннекціонізм, символізм та біхевіоризм, які імітують відповідно нервову систему, мислення та поведінку людини.
В даний час з нейронними мережами, які представляють зв'язковий підхід, панує перевага (, також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Коли кількість шарів та нейронів (, а також параметрів ) достатньо велика, існує достатньо можливостей для підгонки складних загальних завдань. Завдяки введенню даних можна постійно коригувати параметри нейронів, і в результаті проходження через велику кількість даних, цей нейрон досягне найкращого стану (, параметрів ), що й називається "великий зусиль - диво", і це також пояснює походження слова "глибокий" - достатня кількість шарів і нейронів.
Наприклад, це можна просто зрозуміти як побудову функції, де при вході X=2, Y=3; при X=3, Y=5. Якщо ми хочемо, щоб ця функція відповідала всім X, тоді потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка відповідає цій умові, Y = 2X -1. Але якщо є дані X=2, Y=11, тоді потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорс-атаки, виявилось, що Y = X2 -3X +5 підходить найбільше, але не потрібно, щоб вона повністю збігалася з даними, потрібно лише дотримуватися балансу, приблизно подібного виходу. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 - це їхні параметри.
У цей час, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітерацій параметрів, щоб підлаштувати нові дані. Таким чином, ми зможемо підлаштувати всі дані.
І на основі технології глибокого навчання, що базується на нейронних мережах, також відбулося кілька технічних ітерацій та еволюцій, зокрема, як на найраніших нейронних мережах, так і на передавальних нейронних мережах, RNN, CNN, GAN, які врешті-решт еволюціонували в сучасні великі моделі, такі як GPT, що використовують технологію Transformer. Технологія Transformer є лише напрямком еволюції нейронних мереж, до якої додано перетворювач ( Transformer ), призначений для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ), у відповідні числові значення для подання. Потім ці дані вводяться в нейронну мережу, таким чином нейронна мережа може моделювати будь-який тип даних, що й реалізує мультимодальність.
Розвиток штучного інтелекту пройшов через три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десять років після того, як була запропонована технологія ШІ. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу людини з машиною. У той же час з'явилися експертні системи, зокрема експертна система DENRAL, яка була розроблена під наглядом певного університету в певній установі. Ця система має дуже глибокі знання з хімії та здійснює висновки на основі запитів, щоб генерувати відповіді, подібні до тих, що дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань і системи висновків.
Після експертних систем у 90-х роках XX століття Пірл запропонував байесівські мережі, які також називаються мережами віри. У той же період Брукс запропонував робототехніку, основану на поведінці, що ознаменувало народження біхевіоризму.
У 1997 році компанія Deep Blue перемогла чемпіона світу з шахів Гаррі Каспарова з рахунком 3,5:2,5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий етап розвитку.
Третя хвиля технологій штучного інтелекту сталася в 2006 році. Три гіганти глибокого навчання запропонували концепцію глибокого навчання, алгоритм, що базується на штучних нейронних мережах, який використовується для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer і Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та розвитком технологій глибокого навчання, зокрема:
У 2011 році система певної компанії перемогла людину в певній програмі та здобула перемогу.
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу), яка навчається шляхом змагання двох нейронних мереж, здатну генерувати фото, що важко відрізнити від справжніх. Одночасно Goodfellow написав книгу «Deep Learning», відому як «квіткова книга», яка є однією з важливих вступних книг у сфері глибокого навчання.
У 2015 році Хінтон та інші представили алгоритм глибокого навчання в журналі «Природа», що викликало величезний резонанс у наукових колах та промисловості.
У 2015 році певна організація була створена, кілька відомих особистостей оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році система на основі технології глибокого навчання провела битву людина-машина з чемпіоном світу з го, професійним дев'ятим даном, отримавши перемогу з загальним рахунком 4:1.
У 2017 році компанія розробила гуманоїдного робота Софію, яка стала першим роботом в історії, що отримав статус повноправного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році одна компанія, яка мала багатий запас талантів і технологій у сфері штучного інтелекту, опублікувала статтю «Увага — це все, що вам потрібно», в якій було представлено алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.
У 2018 році деяка організація випустила GPT, побудований на основі алгоритму Transformer, це була одна з найбільших мовних моделей на той момент.
У 2018 році одна команда випустила систему на основі глибокого навчання, здатну передбачати структуру білків, що вважається величезним кроком уперед у сфері штучного інтелекту.
У 2019 році якась організація випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році розроблений певною організацією GPT-3 має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Модель використовує 570 ГБ тексту для навчання і може досягати найсучасніших показників у виконанні різних завдань обробки природної мови, таких як відповіді на запитання, переклад та написання статей.
У 2021 році певна організація випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року було запущено додаток на базі моделі GPT-4, який у березні досягнув ста мільйонів користувачів, ставши найшвидшим додатком в історії, що досягнув ста мільйонів користувачів.
У 2024 році певна організація випустить GPT-4 omni.
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT великі моделі викликали бум в галузі штучного інтелекту, багато гравців увійшли в цю область, і ми також виявили, що ринок відчуває величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми головним чином досліджуємо промислову ланцюг глибоких навчальних алгоритмів, як складаються їхні верхні та нижні ланки в AI-індустрії, яка домінує глибокими навчальними алгоритмами, а також яким є поточний стан та співвідношення попиту і пропозиції, а також майбутній розвиток.
По-перше, нам потрібно чітко усвідомити, що під час тренування великих моделей LLMs, зокрема GPT на основі технології Transformer, весь процес ділиться на три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий вхід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, подібно до прикладів, наведених у першій частині звіту (X,Y), для пошуку оптимальних параметрів кожного нейрона в цій моделі, на цьому етапі потрібна велика кількість даних, а цей процес також є найвитратнішим з точки зору обчислювальних ресурсів, оскільки потрібно багаторазово ітерувати нейрони, намагаючись різні параметри. Після завершення навчання на одній партії даних, зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання — це процес навчання на невеликій, але дуже якісній вибірці даних, що дозволяє покращити якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі завдяки якісним даним.
Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди", мета якої дуже проста - це впорядкування виходу результатів, тому реалізація цієї моделі буде досить простою, оскільки бізнес-сценарій досить вертикальний. Після цього ця модель використовується для визначення, чи є вихід великої моделі високоякісним, таким чином ми можемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі )
Коротко кажучи, під час навчання великої моделі попереднє навчання має дуже високі вимоги до кількості даних, а також вимагає найбільших обчислювальних потужностей GPU, тоді як доопрацювання потребує більш якісних даних для покращення параметрів. Підкріплювальне навчання може повторно ітерувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.
У процесі навчання, чим більше параметрів, тим вищий потенціал його узагальнення, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X та X0, тому як змінюються параметри, дані, які вони можуть апроксимувати, є вкрай обмеженими, оскільки їхня сутність залишається прямою лінією. Якщо нейронів більше, то можна ітерувати більше параметрів, отже, можна апроксимувати більше даних, саме тому великі моделі творять дива, і це також причина, чому їх називають великими моделями, адже їхня сутність полягає у величезній кількості нейронів і параметрів, а також величезній кількості даних, водночас потрібна величезна обчислювальна потужність.
Отже, на ефективність великої моделі впливають три основні фактори: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, розрахованому за кількістю токенів), тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність потрібно придбати та скільки часу знадобиться для навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою крапкою. Операції з плаваючою крапкою – це загальний термін для додавання, віднімання, множення і ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча крапка означає, що число може містити десяткову крапку, а FP16 представляє точність, що підтримує десяткові числа. FP32 є більш поширеною точністю. Згідно з практичними правилами, попереднє навчання ( Pre-training ) один раз ( зазвичай потребує багаторазового навчання ) великої моделі, приблизно 6np Flops, де 6 називається галузевою константою. А висновок ( Inference - це процес, коли ми вводимо дані та чекаємо на вихід великої моделі ), розділений на дві частини: введення n токенів, вихід n токенів, отже, загалом потрібно близько 2np Flops.
На початку використовувалися процесори CPU для навчання та забезпечення обчислювальної потужності, але згодом почали поступово використовувати замість них графічні процесори GPU, такі як чіпи A100 та H100 від деякої компанії. Оскільки CPU є загальним обчислювальним пристроєм, тоді як GPU можуть використовуватися як спеціалізовані обчислювальні пристрої, їх енергетична ефективність значно перевищує CPU. GPU виконує операції з плаваючою комою в основному через модуль, званий Tensor Core.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
4
Поділіться
Прокоментувати
0/400
GreenCandleCollector
· 07-25 11:50
булран飞天那天给大家发糖
Переглянути оригіналвідповісти на0
StableNomad
· 07-23 01:17
насправді... бачив цей фільм раніше з ICO в '17, але, якщо чесно, потенціал ROI тут відчувається по-іншому
Переглянути оригіналвідповісти на0
0xSherlock
· 07-23 01:14
Гроші приходять занадто повільно, не можу забезпечити багатство для всієї родини.
ШІ та криптоактиви: технології глибокого навчання ведуть промислову революцію
AI x Crypto:від нуля до вершини
Розвиток індустрії штучного інтелекту в останній час деякі люди вважають четвертою промисловою революцією. Поява великих моделей значно підвищила ефективність у різних галузях, за оцінками, підвищивши робочу продуктивність в США приблизно на 20%. Водночас універсальні можливості, які надають великі моделі, вважаються новою парадигмою програмного дизайну, де точний дизайн коду в минулому перетворився на більш універсальну структуру великих моделей, що дозволяє програмному забезпеченню мати кращу продуктивність і ширшу підтримку модальностей. Технології глибокого навчання дійсно принесли четвертий розквіт в індустрії штучного інтелекту, і ця хвиля також вплинула на індустрію криптовалют.
Цей звіт детально розгляне історію розвитку індустрії штучного інтелекту, класифікацію технологій, а також вплив технології глибокого навчання на індустрію. Глибокий аналіз сучасного стану та тенденцій розвитку ланцюга постачання, що включає GPU, хмарні обчислення, джерела даних, пристрої на краю тощо. В основному розгляне сутність взаємозв'язку між криптовалютою та індустрією штучного інтелекту, а також структуру ланцюга постачання AI, пов'язану з криптовалютою.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала своє існування з 50-х років XX століття. Для реалізації бачення штучного інтелекту в академічному та промисловому секторах протягом різних епох і в різних наукових дисциплінах було розроблено багато шкіл, що реалізують штучний інтелект.
Сучасні технології штучного інтелекту переважно використовують термін "машинне навчання", концепція якого полягає в тому, щоб машини, спираючись на дані, повторно ітеративно вдосконалювали продуктивність системи в завданнях. Основні етапи включають подачу даних до алгоритму, навчання моделі на цих даних, тестування та впровадження моделі, використання моделі для виконання автоматизованих прогнозних завдань.
На сьогоднішній день машинне навчання має три основні напрямки: коннекціонізм, символізм та біхевіоризм, які імітують відповідно нервову систему, мислення та поведінку людини.
В даний час з нейронними мережами, які представляють зв'язковий підхід, панує перевага (, також відомий як глибоке навчання ). Основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Коли кількість шарів та нейронів (, а також параметрів ) достатньо велика, існує достатньо можливостей для підгонки складних загальних завдань. Завдяки введенню даних можна постійно коригувати параметри нейронів, і в результаті проходження через велику кількість даних, цей нейрон досягне найкращого стану (, параметрів ), що й називається "великий зусиль - диво", і це також пояснює походження слова "глибокий" - достатня кількість шарів і нейронів.
Наприклад, це можна просто зрозуміти як побудову функції, де при вході X=2, Y=3; при X=3, Y=5. Якщо ми хочемо, щоб ця функція відповідала всім X, тоді потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, можна побудувати функцію, яка відповідає цій умові, Y = 2X -1. Але якщо є дані X=2, Y=11, тоді потрібно перебудувати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорс-атаки, виявилось, що Y = X2 -3X +5 підходить найбільше, але не потрібно, щоб вона повністю збігалася з даними, потрібно лише дотримуватися балансу, приблизно подібного виходу. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 - це їхні параметри.
У цей час, якщо ми введемо велику кількість даних у нейронну мережу, ми можемо збільшити кількість нейронів та ітерацій параметрів, щоб підлаштувати нові дані. Таким чином, ми зможемо підлаштувати всі дані.
І на основі технології глибокого навчання, що базується на нейронних мережах, також відбулося кілька технічних ітерацій та еволюцій, зокрема, як на найраніших нейронних мережах, так і на передавальних нейронних мережах, RNN, CNN, GAN, які врешті-решт еволюціонували в сучасні великі моделі, такі як GPT, що використовують технологію Transformer. Технологія Transformer є лише напрямком еволюції нейронних мереж, до якої додано перетворювач ( Transformer ), призначений для кодування всіх модальностей (, таких як аудіо, відео, зображення тощо ), у відповідні числові значення для подання. Потім ці дані вводяться в нейронну мережу, таким чином нейронна мережа може моделювати будь-який тип даних, що й реалізує мультимодальність.
! Newcomer Science丨AI x Crypto: від нуля до піку
Розвиток штучного інтелекту пройшов через три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десять років після того, як була запропонована технологія ШІ. Ця хвиля була викликана розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу людини з машиною. У той же час з'явилися експертні системи, зокрема експертна система DENRAL, яка була розроблена під наглядом певного університету в певній установі. Ця система має дуже глибокі знання з хімії та здійснює висновки на основі запитів, щоб генерувати відповіді, подібні до тих, що дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань і системи висновків.
Після експертних систем у 90-х роках XX століття Пірл запропонував байесівські мережі, які також називаються мережами віри. У той же період Брукс запропонував робототехніку, основану на поведінці, що ознаменувало народження біхевіоризму.
У 1997 році компанія Deep Blue перемогла чемпіона світу з шахів Гаррі Каспарова з рахунком 3,5:2,5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий етап розвитку.
Третя хвиля технологій штучного інтелекту сталася в 2006 році. Три гіганти глибокого навчання запропонували концепцію глибокого навчання, алгоритм, що базується на штучних нейронних мережах, який використовується для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer і Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт коннекціонізму.
Багато знакових подій також супроводжувалися дослідженнями та розвитком технологій глибокого навчання, зокрема:
У 2011 році система певної компанії перемогла людину в певній програмі та здобула перемогу.
У 2014 році Goodfellow запропонував GAN( генеративну змагальну мережу), яка навчається шляхом змагання двох нейронних мереж, здатну генерувати фото, що важко відрізнити від справжніх. Одночасно Goodfellow написав книгу «Deep Learning», відому як «квіткова книга», яка є однією з важливих вступних книг у сфері глибокого навчання.
У 2015 році Хінтон та інші представили алгоритм глибокого навчання в журналі «Природа», що викликало величезний резонанс у наукових колах та промисловості.
У 2015 році певна організація була створена, кілька відомих особистостей оголосили про спільне інвестування 10 мільярдів доларів.
У 2016 році система на основі технології глибокого навчання провела битву людина-машина з чемпіоном світу з го, професійним дев'ятим даном, отримавши перемогу з загальним рахунком 4:1.
У 2017 році компанія розробила гуманоїдного робота Софію, яка стала першим роботом в історії, що отримав статус повноправного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році одна компанія, яка мала багатий запас талантів і технологій у сфері штучного інтелекту, опублікувала статтю «Увага — це все, що вам потрібно», в якій було представлено алгоритм Transformer, і почали з'являтися великомасштабні мовні моделі.
У 2018 році деяка організація випустила GPT, побудований на основі алгоритму Transformer, це була одна з найбільших мовних моделей на той момент.
У 2018 році одна команда випустила систему на основі глибокого навчання, здатну передбачати структуру білків, що вважається величезним кроком уперед у сфері штучного інтелекту.
У 2019 році якась організація випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році розроблений певною організацією GPT-3 має 175 мільярдів параметрів, що в 100 разів більше, ніж у попередньої версії GPT-2. Модель використовує 570 ГБ тексту для навчання і може досягати найсучасніших показників у виконанні різних завдань обробки природної мови, таких як відповіді на запитання, переклад та написання статей.
У 2021 році певна організація випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року було запущено додаток на базі моделі GPT-4, який у березні досягнув ста мільйонів користувачів, ставши найшвидшим додатком в історії, що досягнув ста мільйонів користувачів.
У 2024 році певна організація випустить GPT-4 omni.
! Newcomer Science Popular丨AI x Crypto: від нуля до піку
Ланцюг постачання глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT великі моделі викликали бум в галузі штучного інтелекту, багато гравців увійшли в цю область, і ми також виявили, що ринок відчуває величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми головним чином досліджуємо промислову ланцюг глибоких навчальних алгоритмів, як складаються їхні верхні та нижні ланки в AI-індустрії, яка домінує глибокими навчальними алгоритмами, а також яким є поточний стан та співвідношення попиту і пропозиції, а також майбутній розвиток.
По-перше, нам потрібно чітко усвідомити, що під час тренування великих моделей LLMs, зокрема GPT на основі технології Transformer, весь процес ділиться на три етапи.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий вхід у числові значення, цей процес називається "Tokenization", після чого ці числові значення називаються Token. За загальним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є основною одиницею, що використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, подібно до прикладів, наведених у першій частині звіту (X,Y), для пошуку оптимальних параметрів кожного нейрона в цій моделі, на цьому етапі потрібна велика кількість даних, а цей процес також є найвитратнішим з точки зору обчислювальних ресурсів, оскільки потрібно багаторазово ітерувати нейрони, намагаючись різні параметри. Після завершення навчання на одній партії даних, зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання — це процес навчання на невеликій, але дуже якісній вибірці даних, що дозволяє покращити якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з цих даних можуть містити помилки або бути низької якості. Крок доопрацювання може підвищити якість моделі завдяки якісним даним.
Третій крок, посилене навчання. Спочатку буде створено абсолютно нову модель, яку ми називаємо "модель винагороди", мета якої дуже проста - це впорядкування виходу результатів, тому реалізація цієї моделі буде досить простою, оскільки бізнес-сценарій досить вертикальний. Після цього ця модель використовується для визначення, чи є вихід великої моделі високоякісним, таким чином ми можемо використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі )
Коротко кажучи, під час навчання великої моделі попереднє навчання має дуже високі вимоги до кількості даних, а також вимагає найбільших обчислювальних потужностей GPU, тоді як доопрацювання потребує більш якісних даних для покращення параметрів. Підкріплювальне навчання може повторно ітерувати параметри за допомогою моделі винагороди для отримання більш якісних результатів.
У процесі навчання, чим більше параметрів, тим вищий потенціал його узагальнення, наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X та X0, тому як змінюються параметри, дані, які вони можуть апроксимувати, є вкрай обмеженими, оскільки їхня сутність залишається прямою лінією. Якщо нейронів більше, то можна ітерувати більше параметрів, отже, можна апроксимувати більше даних, саме тому великі моделі творять дива, і це також причина, чому їх називають великими моделями, адже їхня сутність полягає у величезній кількості нейронів і параметрів, а також величезній кількості даних, водночас потрібна величезна обчислювальна потужність.
Отже, на ефективність великої моделі впливають три основні фактори: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, розрахованому за кількістю токенів), тоді ми можемо за допомогою загальних емпіричних правил розрахувати необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність потрібно придбати та скільки часу знадобиться для навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою крапкою. Операції з плаваючою крапкою – це загальний термін для додавання, віднімання, множення і ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча крапка означає, що число може містити десяткову крапку, а FP16 представляє точність, що підтримує десяткові числа. FP32 є більш поширеною точністю. Згідно з практичними правилами, попереднє навчання ( Pre-training ) один раз ( зазвичай потребує багаторазового навчання ) великої моделі, приблизно 6np Flops, де 6 називається галузевою константою. А висновок ( Inference - це процес, коли ми вводимо дані та чекаємо на вихід великої моделі ), розділений на дві частини: введення n токенів, вихід n токенів, отже, загалом потрібно близько 2np Flops.
На початку використовувалися процесори CPU для навчання та забезпечення обчислювальної потужності, але згодом почали поступово використовувати замість них графічні процесори GPU, такі як чіпи A100 та H100 від деякої компанії. Оскільки CPU є загальним обчислювальним пристроєм, тоді як GPU можуть використовуватися як спеціалізовані обчислювальні пристрої, їх енергетична ефективність значно перевищує CPU. GPU виконує операції з плаваючою комою в основному через модуль, званий Tensor Core.