AI sektöründeki son gelişmeler bazı kişiler tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve Amerika için yaklaşık %20'lik bir iş verimliliği artışı sağladığı tahmin ediliyor. Aynı zamanda büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişteki hassas kod tasarımı, daha genel büyük model çerçevelerine entegre olmaya dönüşerek yazılımlara daha iyi performans ve daha geniş mod destekleri kazandırdı. Derin öğrenme teknolojisi gerçekten de AI sektörüne dördüncü bir refah dalgası getirdi ve bu akım kripto para sektörünü de etkiledi.
Bu rapor, AI sektörünün gelişim tarihini, teknoloji sınıflandırmalarını ve derin öğrenme teknolojisinin sektöre etkisini detaylı bir şekilde inceleyecektir. Derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumunu ve trendlerini derinlemesine analiz edecektir. Kripto para birimleri ile AI sektörü arasındaki ilişkiyi özü itibarıyla inceleyerek, kripto para birimleri ile ilgili AI endüstri zincirinin yapısını ortaya koyacaktır.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlar, farklı dönemlerde farklı disiplin arka planlarıyla, yapay zekayı gerçekleştiren birçok akım geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini temel alır; bu yaklaşım, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesini sağlamayı amaçlar. Ana adımlar, verilerin algoritmalara gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip uygulanması ve modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır; bunlar bağlantıcıcılık, sembolistlik ve davranışçılıktır. Bu akımlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile üstünlük sağlamaktadır. Bunun başlıca nedeni, bu yapının bir girdi katmanı, bir çıktı katmanı ve birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri tamamlama şansı yeterince artar. Veri girişi aracılığıyla, nöronların parametreleri sürekli olarak ayarlanabilir ve sonunda birçok veri ile deneyimledikten sonra, bu nöron en iyi duruma ulaşır ) parametre ( ve bu, "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır; bu da "derinlik" teriminin kaynağıdır - yeterince çok katman ve nöron.
Bir örnek vermek gerekirse, basitçe bir fonksiyonun tanımlandığını düşünebiliriz. Bu fonksiyon X=2 olduğunda Y=3; X=3 olduğunda Y=5'tir. Eğer bu fonksiyonun tüm X değerlerine yanıt vermesini istiyorsak, fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X -1 şeklinde oluşturulabilir. Ancak, X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon tasarlamak gerekir. GPU kullanarak kaba kuvvetle çözümler arandığında Y = X2 -3X +5 ifadesinin daha uygun olduğu bulunmuştur. Ancak, verilerle tamamen örtüşmesi gerekmez; sadece dengeyi korumalı ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3 ve 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyum sağlayabiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birkaç teknik iterasyon ve evrim geçirmiştir ve nihayetinde modern büyük modellerin, örneğin GPT gibi, kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları ), ses, video, resim vb. ( verilerini ilgili sayısal değerlere dönüştürmek için bir dönüştürücü ekler ). Daha sonra bu veriler sinir ağına beslenir, bu şekilde sinir ağı her türlü veriyi modelleyebilir, yani çok modlu gerçekleştirilir.
Yapay zeka gelişimi üç teknolojik dalga geçirmiştir, birinci dalga 20. yüzyılın 60'lı yıllarıdır, bu dalga yapay zeka teknolojisinin ortaya çıkmasından on yıl sonradır, bu dalga sembolist teknolojilerin gelişimi ile ilgili olup, genel doğal dil işleme ve insan-makine diyalog sorunlarını çözmüştür. Aynı dönemde, uzman sistemler doğmuştur, bu, bir üniversitenin bir kuruluşun denetimi altında tamamladığı DENRAL uzman sistemidir, bu sistem çok güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanı gibi cevaplar üretmektedir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin bir birleşimi olarak görülebilir.
Uzman sistemlerden sonra, 1990'larda Pearl, inanç ağları olarak da bilinen Bayesian ağını önerdi. Aynı dönemde, Brooks, davranışçı robotik üzerine bir yaklaşım önerdi ve bu, davranışçılığın doğuşunu simgeliyor.
1997 yılında, bir şirketin derin mavi "Blue" uluslararası satranç şampiyonu Kasparov'u 3.5:2.5 yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi, verileri temsil öğrenme algoritması olarak yapay sinir ağlarını temel alan derin öğrenme kavramını ortaya koydu. Daha sonra, derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu iki algoritma bu üçüncü teknoloji dalgasını şekillendirdi ve aynı zamanda bağlantıcılığın altın çağıydı.
Birçok ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte ortaya çıkmaya başladı, bunlar arasında:
2011'de, bir şirketin sistemi bir programda insanları yenerek şampiyon oldu.
2014 yılında Goodfellow, GAN( (Generative Adversarial Networks))'i önerdi; iki sinir ağının karşılıklı olarak oyun oynayarak öğrenmesini sağlayarak gerçek gibi fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap da yazdı, bu kitap "flower book" olarak adlandırılmaktadır.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdi. Bu derin öğrenme yöntemi, akademik dünyada ve sanayide hemen büyük bir yankı uyandırdı.
2015 yılında, bir kuruluş kuruldu, birçok tanınmış kişi ortaklaşa 10 milyar dolar yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayalı sistem dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusuyla go insan-makine savaşında 4-1'lik toplam skorla galip geldi.
2017 yılında, bir şirket tarafından geliştirilen insansı robot Sophia, tarihin ilk birinci sınıf vatandaşlık statüsüne sahip robotu olarak adlandırıldı ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin yetenek ve teknolojiye sahip bir şirket, "Attention is all you need" adlı makaleyi yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de, bir kuruluş Transformer algoritmasına dayalı GPT'yi tanıttı, bu o dönemdeki en büyük dil modellerinden biriydi.
2018'de, bir ekip derin öğrenmeye dayalı bir sistem yayınladı ve bu sistem proteinlerin yapısal tahminini yapabiliyor. Bu, yapay zeka alanında büyük bir ilerleme olarak değerlendiriliyor.
2019'da, bir kuruluş GPT-2'yi yayımladı, bu model 1.5 milyar parametreye sahip.
2020 yılında, bir kurum tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'ye göre 100 kat daha fazladır. Bu model, 570GB metin kullanarak eğitilmiştir ve birden fazla NLP( doğal dil işleme) görevinde( soru yanıtlama, çeviri, makale yazma) konularında en son performansa ulaşabilmektedir.
2021 yılında, bir kurum GPT-4'ü duyurdu, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayalı uygulama piyasaya sürüldü, Mart ayında yüz milyon kullanıcıya ulaştı ve tarihindeki en hızlı yüz milyon kullanıcıya ulaşan uygulama oldu.
2024 yılında, bir kurum GPT-4 omni'yi piyasaya sürüyor.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, tamamen sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı; bu alana birçok oyuncu akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük bir patlama yaşadığını gözlemledik. Bu raporun bu kısmında, derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka sektöründe, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın durumu, arz talep ilişkisi ve gelecekteki gelişmeler nelerdir?
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisi tabanlı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitiminde toplamda üç adım olduğudur.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girdisini sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak düşünülebilir. Bu da GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun birinci bölümünde verilen (X,Y) örneğine benzer bir şekilde, model altında her bir nöronun en iyi parametrelerini bulmak. Bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç, nöronları çeşitli parametreleri denemek için tekrar tekrar yinelemek zorunda olduğundan, hesaplama gücü açısından en çok gerektiren süreçtir. Bir veri çifti eğitimi tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az ama çok kaliteli bir veri kümesi sağlamak, böylece modelin çıktısının kalitesini artırmak için eğitilmesidir. Çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri yanlış veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak. Dolayısıyla bu modeli oluşturmak oldukça kolay olacaktır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız. Böylece bir ödül modeli ile büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesine de ihtiyaç vardır. )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim veri miktarı için çok yüksek gereksinimlere sahiptir. Gerekli olan GPU hesaplama gücü de en fazladır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar üretmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği üzerinden Y = aX + b şeklinde düşünelim. Aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin ne şekilde değiştiği, uyum sağlayabileceği veri miktarını son derece sınırlıdır; çünkü bu, özünde bir doğru çizgisi olmaya devam etmektedir. Eğer daha fazla nöron varsa, o zaman daha fazla parametre üzerinde yineleme yapılabilir ve daha fazla veriyi uyumlu hale getirebiliriz. İşte bu nedenle büyük modellerin büyük mucizeler yarattığı ve bu yüzden halk arasında 'büyük model' olarak adlandırıldığı da budur; özünde devasa sayıda nöron ve parametre, devasa miktarda veri vardır ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi ile hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını ise n( token sayısı üzerinden hesaplayarak varsayalım. O zaman, gerekli hesaplama miktarını genel bir deneysel kural aracılığıyla hesaplayabiliriz; böylece satın almamız gereken hesaplama gücünü ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle temel birim olarak Flops ile ifade edilir, bu da bir kez kayan nokta işlemi anlamına gelir. Kayan nokta işlemleri, tam sayı olmayan sayılarla yapılan toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557. Kayan nokta, ondalık içerebilen sayıları ifade ederken, FP16 ondalık hassasiyeti destekler, FP32 ise daha yaygın bir hassasiyettir. Pratikteki deneyim kurallarına göre, ön eğitim ) Ön Eğitim ( bir kez ) genellikle çok sayıda ( büyük modeli eğitmek için yaklaşık 6np Flops gerektirir, 6 endüstri sabiti olarak adlandırılır. Ve çıkarım ) Çıkarım, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir (, iki bölüme ayrılır, n token girişi ve n token çıkışı, böylece toplamda yaklaşık 2np Flops gerekir.
Erken dönemde, işlem gücü desteği sağlamak için CPU çipleri kullanılıyordu, ancak daha sonra A100, H100 çipleri gibi GPU'ların yavaş yavaş yerini almaya başladığı görüldü. Çünkü CPU genel hesaplama için varken, GPU özel hesaplama olarak kullanılabilir ve enerji verimliliği açısından CPU'yu çok aşar. GPU, kayan nokta işlemlerini esas olarak Tensor Core adlı bir modül aracılığıyla çalıştırır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 Likes
Reward
13
4
Share
Comment
0/400
GreenCandleCollector
· 07-25 11:50
boğa koşusu uçarken o gün herkese şeker dağıttı
View OriginalReply0
StableNomad
· 07-23 01:17
aslında... bu filmi '17'de icos ile daha önce izlemiştim, ama açıkça söylemek gerekirse buradaki roi potansiyeli farklı.
View OriginalReply0
0xSherlock
· 07-23 01:14
Para kazanmak çok yavaş, ailemi zenginleştiremiyorum.
View OriginalReply0
GasFeeCry
· 07-23 00:56
kripto dünyası'nda trend yok, tamamen şansa bağlı.
AI ve Kripto Varlıklar: Derin öğrenme teknolojisi sanayi devrimini yönlendiriyor
AI x Crypto: Sıfırdan Zirveye
AI sektöründeki son gelişmeler bazı kişiler tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve Amerika için yaklaşık %20'lik bir iş verimliliği artışı sağladığı tahmin ediliyor. Aynı zamanda büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişteki hassas kod tasarımı, daha genel büyük model çerçevelerine entegre olmaya dönüşerek yazılımlara daha iyi performans ve daha geniş mod destekleri kazandırdı. Derin öğrenme teknolojisi gerçekten de AI sektörüne dördüncü bir refah dalgası getirdi ve bu akım kripto para sektörünü de etkiledi.
Bu rapor, AI sektörünün gelişim tarihini, teknoloji sınıflandırmalarını ve derin öğrenme teknolojisinin sektöre etkisini detaylı bir şekilde inceleyecektir. Derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumunu ve trendlerini derinlemesine analiz edecektir. Kripto para birimleri ile AI sektörü arasındaki ilişkiyi özü itibarıyla inceleyerek, kripto para birimleri ile ilgili AI endüstri zincirinin yapısını ortaya koyacaktır.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlar, farklı dönemlerde farklı disiplin arka planlarıyla, yapay zekayı gerçekleştiren birçok akım geliştirmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini temel alır; bu yaklaşım, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesini sağlamayı amaçlar. Ana adımlar, verilerin algoritmalara gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip uygulanması ve modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır; bunlar bağlantıcıcılık, sembolistlik ve davranışçılıktır. Bu akımlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile üstünlük sağlamaktadır. Bunun başlıca nedeni, bu yapının bir girdi katmanı, bir çıktı katmanı ve birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri tamamlama şansı yeterince artar. Veri girişi aracılığıyla, nöronların parametreleri sürekli olarak ayarlanabilir ve sonunda birçok veri ile deneyimledikten sonra, bu nöron en iyi duruma ulaşır ) parametre ( ve bu, "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır; bu da "derinlik" teriminin kaynağıdır - yeterince çok katman ve nöron.
Bir örnek vermek gerekirse, basitçe bir fonksiyonun tanımlandığını düşünebiliriz. Bu fonksiyon X=2 olduğunda Y=3; X=3 olduğunda Y=5'tir. Eğer bu fonksiyonun tüm X değerlerine yanıt vermesini istiyorsak, fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X -1 şeklinde oluşturulabilir. Ancak, X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon tasarlamak gerekir. GPU kullanarak kaba kuvvetle çözümler arandığında Y = X2 -3X +5 ifadesinin daha uygun olduğu bulunmuştur. Ancak, verilerle tamamen örtüşmesi gerekmez; sadece dengeyi korumalı ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3 ve 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyum sağlayabiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birkaç teknik iterasyon ve evrim geçirmiştir ve nihayetinde modern büyük modellerin, örneğin GPT gibi, kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları ), ses, video, resim vb. ( verilerini ilgili sayısal değerlere dönüştürmek için bir dönüştürücü ekler ). Daha sonra bu veriler sinir ağına beslenir, bu şekilde sinir ağı her türlü veriyi modelleyebilir, yani çok modlu gerçekleştirilir.
Yapay zeka gelişimi üç teknolojik dalga geçirmiştir, birinci dalga 20. yüzyılın 60'lı yıllarıdır, bu dalga yapay zeka teknolojisinin ortaya çıkmasından on yıl sonradır, bu dalga sembolist teknolojilerin gelişimi ile ilgili olup, genel doğal dil işleme ve insan-makine diyalog sorunlarını çözmüştür. Aynı dönemde, uzman sistemler doğmuştur, bu, bir üniversitenin bir kuruluşun denetimi altında tamamladığı DENRAL uzman sistemidir, bu sistem çok güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanı gibi cevaplar üretmektedir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin bir birleşimi olarak görülebilir.
Uzman sistemlerden sonra, 1990'larda Pearl, inanç ağları olarak da bilinen Bayesian ağını önerdi. Aynı dönemde, Brooks, davranışçı robotik üzerine bir yaklaşım önerdi ve bu, davranışçılığın doğuşunu simgeliyor.
1997 yılında, bir şirketin derin mavi "Blue" uluslararası satranç şampiyonu Kasparov'u 3.5:2.5 yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi, verileri temsil öğrenme algoritması olarak yapay sinir ağlarını temel alan derin öğrenme kavramını ortaya koydu. Daha sonra, derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu iki algoritma bu üçüncü teknoloji dalgasını şekillendirdi ve aynı zamanda bağlantıcılığın altın çağıydı.
Birçok ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte ortaya çıkmaya başladı, bunlar arasında:
2011'de, bir şirketin sistemi bir programda insanları yenerek şampiyon oldu.
2014 yılında Goodfellow, GAN( (Generative Adversarial Networks))'i önerdi; iki sinir ağının karşılıklı olarak oyun oynayarak öğrenmesini sağlayarak gerçek gibi fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap da yazdı, bu kitap "flower book" olarak adlandırılmaktadır.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdi. Bu derin öğrenme yöntemi, akademik dünyada ve sanayide hemen büyük bir yankı uyandırdı.
2015 yılında, bir kuruluş kuruldu, birçok tanınmış kişi ortaklaşa 10 milyar dolar yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayalı sistem dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusuyla go insan-makine savaşında 4-1'lik toplam skorla galip geldi.
2017 yılında, bir şirket tarafından geliştirilen insansı robot Sophia, tarihin ilk birinci sınıf vatandaşlık statüsüne sahip robotu olarak adlandırıldı ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin yetenek ve teknolojiye sahip bir şirket, "Attention is all you need" adlı makaleyi yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de, bir kuruluş Transformer algoritmasına dayalı GPT'yi tanıttı, bu o dönemdeki en büyük dil modellerinden biriydi.
2018'de, bir ekip derin öğrenmeye dayalı bir sistem yayınladı ve bu sistem proteinlerin yapısal tahminini yapabiliyor. Bu, yapay zeka alanında büyük bir ilerleme olarak değerlendiriliyor.
2019'da, bir kuruluş GPT-2'yi yayımladı, bu model 1.5 milyar parametreye sahip.
2020 yılında, bir kurum tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'ye göre 100 kat daha fazladır. Bu model, 570GB metin kullanarak eğitilmiştir ve birden fazla NLP( doğal dil işleme) görevinde( soru yanıtlama, çeviri, makale yazma) konularında en son performansa ulaşabilmektedir.
2021 yılında, bir kurum GPT-4'ü duyurdu, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayalı uygulama piyasaya sürüldü, Mart ayında yüz milyon kullanıcıya ulaştı ve tarihindeki en hızlı yüz milyon kullanıcıya ulaşan uygulama oldu.
2024 yılında, bir kurum GPT-4 omni'yi piyasaya sürüyor.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, tamamen sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı; bu alana birçok oyuncu akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük bir patlama yaşadığını gözlemledik. Bu raporun bu kısmında, derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka sektöründe, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın durumu, arz talep ilişkisi ve gelecekteki gelişmeler nelerdir?
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisi tabanlı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitiminde toplamda üç adım olduğudur.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girdisini sayılara dönüştürmesi gerekir; bu işleme "Tokenizasyon" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak düşünülebilir. Bu da GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun birinci bölümünde verilen (X,Y) örneğine benzer bir şekilde, model altında her bir nöronun en iyi parametrelerini bulmak. Bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç, nöronları çeşitli parametreleri denemek için tekrar tekrar yinelemek zorunda olduğundan, hesaplama gücü açısından en çok gerektiren süreçtir. Bir veri çifti eğitimi tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az ama çok kaliteli bir veri kümesi sağlamak, böylece modelin çıktısının kalitesini artırmak için eğitilmesidir. Çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri yanlış veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak. Dolayısıyla bu modeli oluşturmak oldukça kolay olacaktır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız. Böylece bir ödül modeli ile büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesine de ihtiyaç vardır. )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim veri miktarı için çok yüksek gereksinimlere sahiptir. Gerekli olan GPU hesaplama gücü de en fazladır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar üretmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği üzerinden Y = aX + b şeklinde düşünelim. Aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin ne şekilde değiştiği, uyum sağlayabileceği veri miktarını son derece sınırlıdır; çünkü bu, özünde bir doğru çizgisi olmaya devam etmektedir. Eğer daha fazla nöron varsa, o zaman daha fazla parametre üzerinde yineleme yapılabilir ve daha fazla veriyi uyumlu hale getirebiliriz. İşte bu nedenle büyük modellerin büyük mucizeler yarattığı ve bu yüzden halk arasında 'büyük model' olarak adlandırıldığı da budur; özünde devasa sayıda nöron ve parametre, devasa miktarda veri vardır ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi ile hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını ise n( token sayısı üzerinden hesaplayarak varsayalım. O zaman, gerekli hesaplama miktarını genel bir deneysel kural aracılığıyla hesaplayabiliriz; böylece satın almamız gereken hesaplama gücünü ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle temel birim olarak Flops ile ifade edilir, bu da bir kez kayan nokta işlemi anlamına gelir. Kayan nokta işlemleri, tam sayı olmayan sayılarla yapılan toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557. Kayan nokta, ondalık içerebilen sayıları ifade ederken, FP16 ondalık hassasiyeti destekler, FP32 ise daha yaygın bir hassasiyettir. Pratikteki deneyim kurallarına göre, ön eğitim ) Ön Eğitim ( bir kez ) genellikle çok sayıda ( büyük modeli eğitmek için yaklaşık 6np Flops gerektirir, 6 endüstri sabiti olarak adlandırılır. Ve çıkarım ) Çıkarım, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir (, iki bölüme ayrılır, n token girişi ve n token çıkışı, böylece toplamda yaklaşık 2np Flops gerekir.
Erken dönemde, işlem gücü desteği sağlamak için CPU çipleri kullanılıyordu, ancak daha sonra A100, H100 çipleri gibi GPU'ların yavaş yavaş yerini almaya başladığı görüldü. Çünkü CPU genel hesaplama için varken, GPU özel hesaplama olarak kullanılabilir ve enerji verimliliği açısından CPU'yu çok aşar. GPU, kayan nokta işlemlerini esas olarak Tensor Core adlı bir modül aracılığıyla çalıştırır.