Perkembangan industri AI baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan sekitar 20% efisiensi kerja di Amerika Serikat. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru, di mana desain kode yang tepat di masa lalu beralih ke penyematan kerangka model besar yang lebih umum, membuat perangkat lunak memiliki kinerja yang lebih baik dan dukungan modalitas yang lebih luas. Teknologi pembelajaran mendalam benar-benar membawa kemakmuran keempat bagi industri AI, dan tren ini juga mempengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Analisis mendalam tentang keadaan dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Secara esensial, laporan ini akan membahas hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, akademisi dan industri di berbagai era dan latar belakang disiplin ilmu yang berbeda telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "machine learning", yang berarti memungkinkan mesin untuk mengandalkan data dalam iterasi berulang untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, melatih model dengan data tersebut, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, pembelajaran mesin memiliki tiga aliran utama, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki banyak lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut dengan "bekerja keras menghasilkan keajaiban", dan juga asal dari kata "dalam" - cukup banyak lapisan dan neuron.
Sebagai contoh, dapat dipahami dengan sederhana sebagai konstruksi sebuah fungsi, di mana fungsi tersebut memiliki input X=2 menghasilkan Y=3; ketika X=3, Y=5. Jika ingin fungsi ini dapat menangani semua X, maka perlu terus menambahkan derajat fungsi dan parameternya. Misalnya, dapat membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1, tetapi jika ada data dengan X=2, Y=11, maka perlu membangun ulang fungsi yang sesuai dengan ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan bahwa Y = X2 -3X +5 cukup cocok, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan dan menghasilkan output yang kira-kira serupa. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, 5 adalah parameternya.
Pada saat ini, jika kita memasukkan banyak data ke dalam jaringan saraf, kita bisa menambah neuron dan mengiterasi parameter untuk menyesuaikan dengan data baru. Dengan cara ini, kita bisa menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf paling awal di atas, jaringan saraf umpan maju, RNN, CNN, dan GAN yang akhirnya berkembang menjadi model besar modern seperti teknologi Transformer yang digunakan dalam GPT, teknologi Transformer hanya merupakan salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dan lain-lain ) menjadi nilai yang sesuai untuk merepresentasikan. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan diri dengan berbagai jenis data, yaitu mencapai multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, sepuluh tahun setelah teknologi AI diusulkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami dan dialog manusia-mesin secara umum. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan suatu universitas dan lembaga tertentu. Sistem ini memiliki pengetahuan kimia yang sangat kuat, melakukan penalaran melalui pertanyaan untuk menghasilkan jawaban seperti seorang ahli kimia. Sistem ahli kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem penalaran.
Setelah sistem pakar, pada tahun 1990-an, Pearl mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada waktu yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, Deep Blue dari suatu perusahaan mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa pembelajaran mendalam memperkenalkan konsep pembelajaran mendalam, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi dari data. Setelah itu, algoritma pembelajaran mendalam secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, sistem sebuah perusahaan mengalahkan manusia dan memenangkan kejuaraan dalam sebuah acara.
Pada tahun 2014, Goodfellow mengusulkan GAN( jaringan adversarial generatif), yang dapat menghasilkan foto-foto yang tampak nyata melalui proses belajar yang melibatkan dua jaringan saraf yang saling bersaing. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengusulkan algoritma pembelajaran mendalam dalam majalah "Nature", dan pengenalan metode pembelajaran mendalam ini segera menimbulkan dampak besar di dunia akademis dan industri.
Pada tahun 2015, sebuah lembaga didirikan, beberapa tokoh terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar AS.
Pada tahun 2016, sistem berbasis teknologi pembelajaran mendalam mengalahkan juara dunia catur Go dan pemain profesional 9 dan dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara satu tingkat. Robot ini memiliki ekspresi wajah yang kaya serta kemampuan pemahaman bahasa manusia.
Pada tahun 2017, sebuah perusahaan dengan banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, dan model bahasa besar mulai muncul.
Pada tahun 2018, sebuah lembaga merilis GPT yang dibangun berdasarkan algoritma Transformer, ini adalah salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, sebuah tim merilis sistem berbasis pembelajaran mendalam yang dapat memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, sebuah lembaga merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, suatu lembaga mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terkini dalam berbagai tugas NLP( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, sebuah lembaga merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi berbasis model GPT-4 diluncurkan pada Januari 2023, mencapai seratus juta pengguna pada bulan Maret, menjadi aplikasi dengan pertumbuhan tercepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, sebuah lembaga meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi meledak. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana keadaan dan hubungan antara penawaran dan permintaan hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita klarifikasi adalah bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer (, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai numerik, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Berdasarkan aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat secara kasar dianggap sebagai satu Token, sementara setiap karakter Han dapat secara kasar dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan lapisan input cukup banyak pasangan data, seperti yang dicontohkan di bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, pada saat ini memerlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus melakukan iterasi berulang kali pada neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang sangat berkualitas untuk dilatih, perubahan semacam ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama akan dibangun model baru yang kita sebut sebagai "model hadiah", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana, karena konteks bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model hadiah untuk secara otomatis mengiterasi parameter model besar. ) namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan kekuatan komputasi GPU yang diperlukan juga paling banyak, sementara fine-tuning memerlukan data yang berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Itulah mengapa model besar bisa melakukan keajaiban, dan juga alasan mengapa disebut model besar, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, dan juga memerlukan jumlah daya komputasi yang besar.
Oleh karena itu, performa model besar ditentukan terutama oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan berdasarkan aturan umum, sehingga kita bisa memperkirakan kebutuhan daya komputasi yang perlu dibeli dan waktu pelatihan.
Daya komputasi umumnya didasarkan pada Flops sebagai unit dasar, mewakili operasi floating-point, operasi floating-point adalah istilah umum untuk penambahan, pengurangan, perkalian, dan pembagian nilai non-bilangan bulat, seperti 2.5+3.557, floating-point mewakili kemampuan untuk membawa titik desimal, dan FP16 mewakili presisi desimal pendukung, dan FP32 umumnya presisi yang lebih umum. Menurut aturan praktis dalam praktiknya, pra-pelatihan )Pra-pelatihan ( umumnya akan melatih model besar ) beberapa kali (, yang membutuhkan sekitar 6np Flops, dan 6 disebut konstanta industri. )Inference inferensi adalah proses yang ( ketika kita memasukkan sepotong data dan menunggu output dari model besar, yang dibagi menjadi dua bagian, input n token dan output n token, maka total sekitar 2np flops diperlukan.
Pada awalnya, pelatihan dilakukan menggunakan chip CPU untuk menyediakan dukungan komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai penggantinya, seperti chip A100 dan H100 dari perusahaan tertentu. Karena CPU ada sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, yang jauh lebih unggul dalam efisiensi konsumsi energi dibandingkan CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
4
Bagikan
Komentar
0/400
GreenCandleCollector
· 07-25 11:50
bull run terbang pada hari itu memberikan permen kepada semua orang
Lihat AsliBalas0
StableNomad
· 07-23 01:17
sebenarnya... sudah melihat film ini sebelumnya dengan ICO pada '17, tapi jujur ROI potensinya di sini terasa berbeda
Lihat AsliBalas0
0xSherlock
· 07-23 01:14
Uang datang terlalu lambat, tidak bisa membawa seluruh keluarga menuju kekayaan.
Lihat AsliBalas0
GasFeeCry
· 07-23 00:56
dunia kripto tidak memiliki tren, semua bergantung pada keberuntungan
AI dan Aset Kripto: Teknologi pembelajaran kedalaman memimpin revolusi industri
AI x Crypto: dari nol ke puncak
Perkembangan industri AI baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan sekitar 20% efisiensi kerja di Amerika Serikat. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru, di mana desain kode yang tepat di masa lalu beralih ke penyematan kerangka model besar yang lebih umum, membuat perangkat lunak memiliki kinerja yang lebih baik dan dukungan modalitas yang lebih luas. Teknologi pembelajaran mendalam benar-benar membawa kemakmuran keempat bagi industri AI, dan tren ini juga mempengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Analisis mendalam tentang keadaan dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Secara esensial, laporan ini akan membahas hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, akademisi dan industri di berbagai era dan latar belakang disiplin ilmu yang berbeda telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "machine learning", yang berarti memungkinkan mesin untuk mengandalkan data dalam iterasi berulang untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, melatih model dengan data tersebut, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, pembelajaran mesin memiliki tiga aliran utama, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki banyak lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut dengan "bekerja keras menghasilkan keajaiban", dan juga asal dari kata "dalam" - cukup banyak lapisan dan neuron.
Sebagai contoh, dapat dipahami dengan sederhana sebagai konstruksi sebuah fungsi, di mana fungsi tersebut memiliki input X=2 menghasilkan Y=3; ketika X=3, Y=5. Jika ingin fungsi ini dapat menangani semua X, maka perlu terus menambahkan derajat fungsi dan parameternya. Misalnya, dapat membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1, tetapi jika ada data dengan X=2, Y=11, maka perlu membangun ulang fungsi yang sesuai dengan ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan bahwa Y = X2 -3X +5 cukup cocok, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan dan menghasilkan output yang kira-kira serupa. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, 5 adalah parameternya.
Pada saat ini, jika kita memasukkan banyak data ke dalam jaringan saraf, kita bisa menambah neuron dan mengiterasi parameter untuk menyesuaikan dengan data baru. Dengan cara ini, kita bisa menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf paling awal di atas, jaringan saraf umpan maju, RNN, CNN, dan GAN yang akhirnya berkembang menjadi model besar modern seperti teknologi Transformer yang digunakan dalam GPT, teknologi Transformer hanya merupakan salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dan lain-lain ) menjadi nilai yang sesuai untuk merepresentasikan. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan diri dengan berbagai jenis data, yaitu mencapai multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, sepuluh tahun setelah teknologi AI diusulkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami dan dialog manusia-mesin secara umum. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan suatu universitas dan lembaga tertentu. Sistem ini memiliki pengetahuan kimia yang sangat kuat, melakukan penalaran melalui pertanyaan untuk menghasilkan jawaban seperti seorang ahli kimia. Sistem ahli kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem penalaran.
Setelah sistem pakar, pada tahun 1990-an, Pearl mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada waktu yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, Deep Blue dari suatu perusahaan mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa pembelajaran mendalam memperkenalkan konsep pembelajaran mendalam, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi dari data. Setelah itu, algoritma pembelajaran mendalam secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, sistem sebuah perusahaan mengalahkan manusia dan memenangkan kejuaraan dalam sebuah acara.
Pada tahun 2014, Goodfellow mengusulkan GAN( jaringan adversarial generatif), yang dapat menghasilkan foto-foto yang tampak nyata melalui proses belajar yang melibatkan dua jaringan saraf yang saling bersaing. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengusulkan algoritma pembelajaran mendalam dalam majalah "Nature", dan pengenalan metode pembelajaran mendalam ini segera menimbulkan dampak besar di dunia akademis dan industri.
Pada tahun 2015, sebuah lembaga didirikan, beberapa tokoh terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar AS.
Pada tahun 2016, sistem berbasis teknologi pembelajaran mendalam mengalahkan juara dunia catur Go dan pemain profesional 9 dan dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara satu tingkat. Robot ini memiliki ekspresi wajah yang kaya serta kemampuan pemahaman bahasa manusia.
Pada tahun 2017, sebuah perusahaan dengan banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, dan model bahasa besar mulai muncul.
Pada tahun 2018, sebuah lembaga merilis GPT yang dibangun berdasarkan algoritma Transformer, ini adalah salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, sebuah tim merilis sistem berbasis pembelajaran mendalam yang dapat memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, sebuah lembaga merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, suatu lembaga mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terkini dalam berbagai tugas NLP( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, sebuah lembaga merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi berbasis model GPT-4 diluncurkan pada Januari 2023, mencapai seratus juta pengguna pada bulan Maret, menjadi aplikasi dengan pertumbuhan tercepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, sebuah lembaga meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi meledak. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana keadaan dan hubungan antara penawaran dan permintaan hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita klarifikasi adalah bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer (, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai numerik, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Berdasarkan aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat secara kasar dianggap sebagai satu Token, sementara setiap karakter Han dapat secara kasar dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan lapisan input cukup banyak pasangan data, seperti yang dicontohkan di bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model tersebut, pada saat ini memerlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus melakukan iterasi berulang kali pada neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang sangat berkualitas untuk dilatih, perubahan semacam ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama akan dibangun model baru yang kita sebut sebagai "model hadiah", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana, karena konteks bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model hadiah untuk secara otomatis mengiterasi parameter model besar. ) namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan kekuatan komputasi GPU yang diperlukan juga paling banyak, sementara fine-tuning memerlukan data yang berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Itulah mengapa model besar bisa melakukan keajaiban, dan juga alasan mengapa disebut model besar, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, dan juga memerlukan jumlah daya komputasi yang besar.
Oleh karena itu, performa model besar ditentukan terutama oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan berdasarkan aturan umum, sehingga kita bisa memperkirakan kebutuhan daya komputasi yang perlu dibeli dan waktu pelatihan.
Daya komputasi umumnya didasarkan pada Flops sebagai unit dasar, mewakili operasi floating-point, operasi floating-point adalah istilah umum untuk penambahan, pengurangan, perkalian, dan pembagian nilai non-bilangan bulat, seperti 2.5+3.557, floating-point mewakili kemampuan untuk membawa titik desimal, dan FP16 mewakili presisi desimal pendukung, dan FP32 umumnya presisi yang lebih umum. Menurut aturan praktis dalam praktiknya, pra-pelatihan )Pra-pelatihan ( umumnya akan melatih model besar ) beberapa kali (, yang membutuhkan sekitar 6np Flops, dan 6 disebut konstanta industri. )Inference inferensi adalah proses yang ( ketika kita memasukkan sepotong data dan menunggu output dari model besar, yang dibagi menjadi dua bagian, input n token dan output n token, maka total sekitar 2np flops diperlukan.
Pada awalnya, pelatihan dilakukan menggunakan chip CPU untuk menyediakan dukungan komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai penggantinya, seperti chip A100 dan H100 dari perusahaan tertentu. Karena CPU ada sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, yang jauh lebih unggul dalam efisiensi konsumsi energi dibandingkan CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core.