AI alanında büyük modeller savaşı devam ediyor, ancak ticari perspektif hala belirsiz.
Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi. Bir taraf, açık kaynaklı özellikleri nedeniyle geliştiriciler tarafından büyük ilgi gören Meta'nın Llama modeli. Japon NEC şirketi, Llama'yı inceledikten sonra hızlı bir şekilde Japonca ChatGPT geliştirdi. Diğer taraf ise Mayıs ayında piyasaya sürülen ve Llama'yı geride bırakarak açık kaynaklı LLM sıralamasında zirveye oturan Falcon adlı büyük model.
İlginç bir şekilde, Falcon bir teknoloji şirketinden değil, Birleşik Arap Emirlikleri'nin Abu Dabi Teknoloji İnovasyon Araştırma Enstitüsü tarafından geliştirilmiştir. BAE yetkilileri, bu alanda "temel oyuncuları alt üst etmek" amacıyla yer aldıklarını ifade ettiler. Falcon 180B sürümünün yayınlanmasından bir gün sonra, BAE AI Bakanı, Time dergisinin "Yapay Zeka Alanındaki En Etkili 100 Kişi" listesine girdi.
Günümüzde AI alanı, birçok firmanın yarıştığı bir aşamaya girmiştir; güçlü ülkeler ve şirketler kendi büyük modellerini oluşturuyor. Sadece Körfez bölgesinde, Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çipi satın aldı.
Bir yatırımcı sosyal medyada şunları söylemişti: "Bir zamanlar internetin iş modeli yeniliklerini küçümsüyordum, bir engelin olmadığını düşünüyordum. Beklemediğim şey, sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı vermesi..."
Yüksek giriş engeli olan sert teknolojiler, nasıl herkesin katılabileceği bir yarış haline geldi?
Transformer oyunun kurallarını değiştiriyor
Her ülkeden girişimciler, teknoloji devleri ve petrol baronları, 2017'de Google'ın yayımladığı "Attention Is All You Need" makalesine borçlu oldukları büyük model hayallerini peşinden koşabiliyorlar. Bu makale, Transformer algoritmasını açıkladı ve bu AI dalgasının kıvılcımını ateşledi. Şu anda, hangi ülkeye ait olursa olsun, dünyayı sarsan GPT serisi de dahil olmak üzere çeşitli büyük modeller, Transformer temelinde inşa edilmiştir.
Daha önce, "makinelere okumayı öğretmek" kabul edilen bir akademik sorun olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak yorumlarlar. Erken sinir ağlarının girdileri bağımsızdı, uzun metinleri veya hatta tam makaleleri anlamakta zorlandılar, bu nedenle "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlar ortaya çıktı.
2014 yılında, Google'da çalıştıktan sonra OpenAI'ye geçen bilgisayar bilimcisi Ilya Sutskever (Ilya Sutskever) öncülük ederek bir atılım gerçekleştirdi. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerine göre önemli ölçüde artırdı. RNN, her nöronun hem mevcut anın girdisini hem de önceki anın girdisini almasını sağlayan "döngü tasarımını" önerdi ve böylece "bağlamı birleştirme" yeteneğine sahip oldu.
RNN'nin ortaya çıkışı akademik dünyada araştırma hevesini ateşledi, Transformer makalesinin yazarı Noam Shazeer ( de bir zamanlar buna dalmıştı. Ancak geliştiriciler kısa sürede RNN'nin ciddi eksiklikleri olduğunu keşfettiler: bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözebilse de çalıştırma verimliliği düşük, çok sayıda parametreyi işlemek zor.
RNN'nin karmaşık tasarımı Chazelle'i bıktırdı. 2015'ten itibaren, o ve 7 benzer fikirli kişi RNN alternatiflerini geliştirmeye başladılar ve nihayetinde sonuç olarak Transformer'ı ortaya çıkardılar. RNN ile karşılaştırıldığında, Transformer'ın iki büyük yeniliği var: birincisi, döngü tasarımını yerleştirme kodlaması ile değiştirmesi, paralel hesaplama sağlaması ve eğitim verimliliğini büyük ölçüde artırarak AI'yı büyük model çağında başlatması; ikincisi ise bağlam anlama yeteneğini daha da güçlendirmesidir.
Transformer, birçok eksikliği bir anda çözerek, giderek NLP) doğal dil işleme( alanında ana akım bir çözüm haline geldi. Hatta İlya, kendi geliştirdiği RNN'i terk ederek Transformer cephesine katıldı. Denilebilir ki, Transformer günümüzdeki tüm büyük modellerin atasıdır; büyük modelleri teorik araştırmalardan saf mühendislik sorunlarına dönüştürmüştür.
2019'da OpenAI, Transformer temelinde GPT-2'yi geliştirdi ve akademik dünyayı şok etti. Google hemen daha güçlü bir AI modeli olan Meena'yı piyasaya sürdü. GPT-2 ile karşılaştırıldığında, Meena'nın herhangi bir algoritmik yeniliği yoktu, yalnızca 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücü ekledi. Transformer'ın yazarı Şahez, bu tür bir "şiddetli yığma" karşısında büyük bir şok yaşadı ve "Meena dünyayı yutuyor" notunu yazdı.
Transformer'ın ortaya çıkmasından sonra, akademik dünyada temel algoritma yeniliklerinin hızı büyük ölçüde yavaşladı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik faktörleri, AI yarışmasının anahtarı haline geldi. Belirli bir teknik yeteneğe sahip olan teknoloji şirketleri, büyük modeller geliştirebiliyor.
Bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları söyledi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve günümüzdeki üretken yapay zeka da dahil olmak üzere bir dizi aracın birleşimidir. Bunlar, elektrik ve internet gibi diğer genel teknolojilere benzer genel teknolojilerdir."
OpenAI elbette LLM alanında bir gösterge olmaya devam ediyor, ancak yarı iletken analiz kuruluşu Semi Analysis, GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak haline gelirse, herhangi bir rakip hızla kopyalayabilir. Bu analist, çok geçmeden diğer büyük teknoloji şirketlerinin de GPT-4 ile karşılaştırılabilir büyük modeller geliştirebileceğini öngörüyor.
Hendek nerede kuruldu?
Şu anda, "Bai Mo Da Zhan" artık bir mecaz değil, gerçeklik oldu. Raporlara göre, bu yılın Temmuz ayı itibarıyla, Çin'deki büyük model sayısı 130'a ulaştı ve bu, Amerika Birleşik Devletleri'ndeki 114 modeli geçti; çeşitli efsaneler, neredeyse yerli teknoloji şirketlerinin isimlendirmesi için yeterli değil.
Amerika Birleşik Devletleri ve Çin dışında, diğer zengin ülkeler de "bir ülke bir model" hedefini kısmen gerçekleştirmiştir: Japonya, Birleşik Arap Emirlikleri, Hindistan hükümeti tarafından desteklenen Bhashini ve Güney Koreli internet şirketi Naver tarafından geliştirilen HyperClova X gibi. Bu manzara, internet balonunun olduğu döneme geri dönülmüş gibi, her kesim para harcamak için sahneye çıkıyor.
Önceki metinde belirtildiği gibi, Transformer büyük modelleri saf bir mühendislik sorununa dönüştürüyor; sadece finansman ve donanım gerektiğinde, gerisi parametre ayarlaması. Ancak giriş engelinin düşmesi, herkesin AI çağının devlerinden biri olabileceği anlamına gelmiyor.
Girişte bahsedilen "hayvanlar savaşı" tipik bir örnektir: Falcon, sıralamada Llama'yı geçse de, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor. Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak olarak paylaşarak hem teknolojik kazançları paylaşmayı hem de toplumsal zekayı harekete geçirmeyi umuyor. Farklı kesimlerin Llama'yı sürekli kullanması ve geliştirmesiyle Meta, bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için aktif geliştirici topluluğu temel rekabet avantajıdır. Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu belirlemişti; Zuckerberg sosyal medya ile başladığı için "kamu ilişkilerini sürdürmenin" önemini daha iyi anlıyor.
Örneğin Ekim ayında, Meta "AI Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi kullanarak eğitim, çevre gibi sosyal sorunları çözmeye çalışan geliştiriciler, 500.000 dolar hibe alma şansına sahip. Artık Meta'nın Llama serisi, açık kaynak LLM'lerin bir mihenk taşı haline geldi.
Ekim ayının başı itibarıyla, tanınmış bir platformda açık kaynak LLM sıralamasında ilk 10'da 8'i Llama 2 tabanlı olarak geliştirilmiş ve hepsi açık kaynak lisansını kullanıyor. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü geçti.
Performans artırmak elbette mümkündür, ancak şu anda çoğu LLM ile GPT-4 arasında hala belirgin bir fark bulunmaktadır. Örneğin, yakın zamanda GPT-4, 4.41 puanla AgentBench test sıralamasında birinci oldu. AgentBench, Tsinghua Üniversitesi ve birkaç tanınmış Amerikan üniversitesi tarafından ortaklaşa geliştirildi ve LLM'lerin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılıyor.
Test sonuçları, ikinci olan Claude'un yalnızca 2.77 puan aldığını ve farkın hala oldukça büyük olduğunu gösteriyor. Oysa o büyük gürültüyle tanıtılan açık kaynak LLM'lerin çoğu, puanlarını 1 civarında gezindiriyor ve henüz GPT-4'ün dörtte birine bile ulaşamıyor. Bilinmelidir ki, GPT-4 bu yıl mart ayında piyasaya sürüldü ve bu, küresel rakiplerin yarım yıl sonra elde ettiği bir başarı.
Bu farkı yaratan, OpenAI'nin yüksek seviyede bilim insanları ekibi ve uzun süreli LLM araştırmalarının birikimidir; bu sayede her zaman lider konumunu korumaktadır. Başka bir deyişle, büyük modellerin temel yetenekleri parametrelerde değil, ekosistem inşasında yatmaktadır ) açık kaynak ( ya da saf akıl yürütme yeteneği ) kapalı kaynak (.
Açık kaynak topluluğu giderek daha aktif hale geldikçe, çeşitli LLM'lerin performansları benzer hale gelebilir, çünkü herkes benzer model mimarileri ve veri setleri kullanıyor. Daha somut bir sorun ise: Midjourney dışında, görünüşe göre hiçbir büyük model kâr elde edemiyor.
Değer Göstergesi Arayışı
Bu yılın Ağustos ayında, "OpenAI'nın 2024 sonunda iflas etme olasılığı" başlıklı bir makale dikkat çekti. Makalenin ana fikri, neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok hızlı.
Makalede belirtildiği gibi, ChatGPT'nin geliştirilmesinden bu yana, OpenAI'nin zararları hızla artmıştır, 2022'de yaklaşık 540 milyon dolar zarar etmiştir ve sadece Microsoft'un yatırımlarıyla ayakta kalabilmektedir. Bu makalenin başlığı çarpıcı olmasına rağmen, birçok büyük model sağlayıcısının mevcut durumunu da ortaya koymaktadır: maliyetler ve gelirler arasında ciddi bir dengesizlik vardır.
Yüksek maliyetler, şu anda AI ile gerçekten büyük para kazananların sadece Nvidia olduğunu ve muhtemelen bunlara Broadcom'un eklenebileceğini gösteriyor. Danışmanlık şirketi Omdia'nın tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 çipi sattı. Bu, verimli bir AI çipi ve dünya genelindeki teknoloji şirketleri ve araştırma kurumları tarafından büyük bir talep görüyor. Eğer bu 300.000 H100 çipini üst üste koyarsak, ağırlığı 4,5 adet Boeing 747 uçağına eşdeğer olur.
NVIDIA'nin performansı buna bağlı olarak fırladı, yıllık gelir %854 arttı, bu da Wall Street'i şaşkına çevirdi. Ayrıca, H100'ün ikinci el piyasada fiyatı 40-50 bin dolara yükseltilmişken, malzeme maliyeti yalnızca yaklaşık 3000 dolar.
Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişiminde bir engel haline gelmiştir. Sequoia Capital, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatına 200 milyar dolar harcamayı beklediğini tahmin etmiştir; buna karşılık, büyük modeller her yıl en fazla 75 milyar dolar gelir üretebilmekte ve en az 125 milyar dolarlık bir açık bulunmaktadır.
Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler yatırdıktan sonra henüz bir kâr modeli bulamadı. Sektörün önde gelen isimleri Microsoft ve Adobe bile zorluklarla karşı karşıya.
Microsoft'un OpenAI ile işbirliği içinde geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft'un her ay 20 dolar zarar etmesine sebep oluyor; yoğun kullanıcılar ise Microsoft'un her ay 80 dolar zarar etmesine yol açabiliyor. Bu nedenle, 30 dolarlık Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirketin zarar etmesine yol açmasını önlemek için hızlı bir şekilde uyumlu bir puan sistemi başlattı. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecek.
Dikkat edilmesi gereken bir nokta, Microsoft ve Adobe'nun iş sahneleri net olan ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğudur. Öte yandan, çoğu büyük parametreli modelin en önemli uygulama alanı hala sohbet etmektir.
Inkar edilemez ki, eğer OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi gerçekleşmeyebilirdi; ancak şu anda, büyük modellerin eğitiminden elde edilen değer hala sorgulanmaktadır. Homojen rekabetin artması ve açık kaynaklı modellerin çoğalmasıyla, sadece büyük model tedarikçileri daha büyük zorluklarla karşılaşabilir.
iPhone 4'ün başarısı 45nm süreçli A4 işlemcisinde değil, bunun bitki savaşı zombileri ve öfkeli kuşlar gibi uygulamaları oynayabilmesindedir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
22 Likes
Reward
22
5
Share
Comment
0/400
MetaverseLandlord
· 08-01 21:36
Ne yapıyorsun, şimdi para kazan!
View OriginalReply0
RektButStillHere
· 08-01 07:14
Para gerçekten her şeyi yapmanıza izin veriyor, bu çok absürt.
View OriginalReply0
SigmaBrain
· 07-30 01:56
Oyuncak pahalı, gerçekten biraz para yatırıp devrim yapmak istiyor.
View OriginalReply0
FrogInTheWell
· 07-30 01:53
Birleşik Arap Emirlikleri'nin bu hırsı oldukça büyük.
View OriginalReply0
WalletDetective
· 07-30 01:40
Geliştirmenin ne önemi var, en sonunda cüzdanın kalınlığına bakmak zorundasın.
AI yüzlerce model savaşı arkasında: teknik engellerin düşüşü, ticari perspektif hâlâ belirsiz
AI alanında büyük modeller savaşı devam ediyor, ancak ticari perspektif hala belirsiz.
Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi. Bir taraf, açık kaynaklı özellikleri nedeniyle geliştiriciler tarafından büyük ilgi gören Meta'nın Llama modeli. Japon NEC şirketi, Llama'yı inceledikten sonra hızlı bir şekilde Japonca ChatGPT geliştirdi. Diğer taraf ise Mayıs ayında piyasaya sürülen ve Llama'yı geride bırakarak açık kaynaklı LLM sıralamasında zirveye oturan Falcon adlı büyük model.
İlginç bir şekilde, Falcon bir teknoloji şirketinden değil, Birleşik Arap Emirlikleri'nin Abu Dabi Teknoloji İnovasyon Araştırma Enstitüsü tarafından geliştirilmiştir. BAE yetkilileri, bu alanda "temel oyuncuları alt üst etmek" amacıyla yer aldıklarını ifade ettiler. Falcon 180B sürümünün yayınlanmasından bir gün sonra, BAE AI Bakanı, Time dergisinin "Yapay Zeka Alanındaki En Etkili 100 Kişi" listesine girdi.
Günümüzde AI alanı, birçok firmanın yarıştığı bir aşamaya girmiştir; güçlü ülkeler ve şirketler kendi büyük modellerini oluşturuyor. Sadece Körfez bölgesinde, Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çipi satın aldı.
Bir yatırımcı sosyal medyada şunları söylemişti: "Bir zamanlar internetin iş modeli yeniliklerini küçümsüyordum, bir engelin olmadığını düşünüyordum. Beklemediğim şey, sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı vermesi..."
Yüksek giriş engeli olan sert teknolojiler, nasıl herkesin katılabileceği bir yarış haline geldi?
Transformer oyunun kurallarını değiştiriyor
Her ülkeden girişimciler, teknoloji devleri ve petrol baronları, 2017'de Google'ın yayımladığı "Attention Is All You Need" makalesine borçlu oldukları büyük model hayallerini peşinden koşabiliyorlar. Bu makale, Transformer algoritmasını açıkladı ve bu AI dalgasının kıvılcımını ateşledi. Şu anda, hangi ülkeye ait olursa olsun, dünyayı sarsan GPT serisi de dahil olmak üzere çeşitli büyük modeller, Transformer temelinde inşa edilmiştir.
Daha önce, "makinelere okumayı öğretmek" kabul edilen bir akademik sorun olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak yorumlarlar. Erken sinir ağlarının girdileri bağımsızdı, uzun metinleri veya hatta tam makaleleri anlamakta zorlandılar, bu nedenle "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlar ortaya çıktı.
2014 yılında, Google'da çalıştıktan sonra OpenAI'ye geçen bilgisayar bilimcisi Ilya Sutskever (Ilya Sutskever) öncülük ederek bir atılım gerçekleştirdi. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerine göre önemli ölçüde artırdı. RNN, her nöronun hem mevcut anın girdisini hem de önceki anın girdisini almasını sağlayan "döngü tasarımını" önerdi ve böylece "bağlamı birleştirme" yeteneğine sahip oldu.
RNN'nin ortaya çıkışı akademik dünyada araştırma hevesini ateşledi, Transformer makalesinin yazarı Noam Shazeer ( de bir zamanlar buna dalmıştı. Ancak geliştiriciler kısa sürede RNN'nin ciddi eksiklikleri olduğunu keşfettiler: bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözebilse de çalıştırma verimliliği düşük, çok sayıda parametreyi işlemek zor.
RNN'nin karmaşık tasarımı Chazelle'i bıktırdı. 2015'ten itibaren, o ve 7 benzer fikirli kişi RNN alternatiflerini geliştirmeye başladılar ve nihayetinde sonuç olarak Transformer'ı ortaya çıkardılar. RNN ile karşılaştırıldığında, Transformer'ın iki büyük yeniliği var: birincisi, döngü tasarımını yerleştirme kodlaması ile değiştirmesi, paralel hesaplama sağlaması ve eğitim verimliliğini büyük ölçüde artırarak AI'yı büyük model çağında başlatması; ikincisi ise bağlam anlama yeteneğini daha da güçlendirmesidir.
Transformer, birçok eksikliği bir anda çözerek, giderek NLP) doğal dil işleme( alanında ana akım bir çözüm haline geldi. Hatta İlya, kendi geliştirdiği RNN'i terk ederek Transformer cephesine katıldı. Denilebilir ki, Transformer günümüzdeki tüm büyük modellerin atasıdır; büyük modelleri teorik araştırmalardan saf mühendislik sorunlarına dönüştürmüştür.
2019'da OpenAI, Transformer temelinde GPT-2'yi geliştirdi ve akademik dünyayı şok etti. Google hemen daha güçlü bir AI modeli olan Meena'yı piyasaya sürdü. GPT-2 ile karşılaştırıldığında, Meena'nın herhangi bir algoritmik yeniliği yoktu, yalnızca 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücü ekledi. Transformer'ın yazarı Şahez, bu tür bir "şiddetli yığma" karşısında büyük bir şok yaşadı ve "Meena dünyayı yutuyor" notunu yazdı.
Transformer'ın ortaya çıkmasından sonra, akademik dünyada temel algoritma yeniliklerinin hızı büyük ölçüde yavaşladı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik faktörleri, AI yarışmasının anahtarı haline geldi. Belirli bir teknik yeteneğe sahip olan teknoloji şirketleri, büyük modeller geliştirebiliyor.
Bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları söyledi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve günümüzdeki üretken yapay zeka da dahil olmak üzere bir dizi aracın birleşimidir. Bunlar, elektrik ve internet gibi diğer genel teknolojilere benzer genel teknolojilerdir."
OpenAI elbette LLM alanında bir gösterge olmaya devam ediyor, ancak yarı iletken analiz kuruluşu Semi Analysis, GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak haline gelirse, herhangi bir rakip hızla kopyalayabilir. Bu analist, çok geçmeden diğer büyük teknoloji şirketlerinin de GPT-4 ile karşılaştırılabilir büyük modeller geliştirebileceğini öngörüyor.
Hendek nerede kuruldu?
Şu anda, "Bai Mo Da Zhan" artık bir mecaz değil, gerçeklik oldu. Raporlara göre, bu yılın Temmuz ayı itibarıyla, Çin'deki büyük model sayısı 130'a ulaştı ve bu, Amerika Birleşik Devletleri'ndeki 114 modeli geçti; çeşitli efsaneler, neredeyse yerli teknoloji şirketlerinin isimlendirmesi için yeterli değil.
Amerika Birleşik Devletleri ve Çin dışında, diğer zengin ülkeler de "bir ülke bir model" hedefini kısmen gerçekleştirmiştir: Japonya, Birleşik Arap Emirlikleri, Hindistan hükümeti tarafından desteklenen Bhashini ve Güney Koreli internet şirketi Naver tarafından geliştirilen HyperClova X gibi. Bu manzara, internet balonunun olduğu döneme geri dönülmüş gibi, her kesim para harcamak için sahneye çıkıyor.
Önceki metinde belirtildiği gibi, Transformer büyük modelleri saf bir mühendislik sorununa dönüştürüyor; sadece finansman ve donanım gerektiğinde, gerisi parametre ayarlaması. Ancak giriş engelinin düşmesi, herkesin AI çağının devlerinden biri olabileceği anlamına gelmiyor.
Girişte bahsedilen "hayvanlar savaşı" tipik bir örnektir: Falcon, sıralamada Llama'yı geçse de, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor. Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak olarak paylaşarak hem teknolojik kazançları paylaşmayı hem de toplumsal zekayı harekete geçirmeyi umuyor. Farklı kesimlerin Llama'yı sürekli kullanması ve geliştirmesiyle Meta, bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için aktif geliştirici topluluğu temel rekabet avantajıdır. Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu belirlemişti; Zuckerberg sosyal medya ile başladığı için "kamu ilişkilerini sürdürmenin" önemini daha iyi anlıyor.
Örneğin Ekim ayında, Meta "AI Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi kullanarak eğitim, çevre gibi sosyal sorunları çözmeye çalışan geliştiriciler, 500.000 dolar hibe alma şansına sahip. Artık Meta'nın Llama serisi, açık kaynak LLM'lerin bir mihenk taşı haline geldi.
Ekim ayının başı itibarıyla, tanınmış bir platformda açık kaynak LLM sıralamasında ilk 10'da 8'i Llama 2 tabanlı olarak geliştirilmiş ve hepsi açık kaynak lisansını kullanıyor. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü geçti.
Performans artırmak elbette mümkündür, ancak şu anda çoğu LLM ile GPT-4 arasında hala belirgin bir fark bulunmaktadır. Örneğin, yakın zamanda GPT-4, 4.41 puanla AgentBench test sıralamasında birinci oldu. AgentBench, Tsinghua Üniversitesi ve birkaç tanınmış Amerikan üniversitesi tarafından ortaklaşa geliştirildi ve LLM'lerin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılıyor.
Test sonuçları, ikinci olan Claude'un yalnızca 2.77 puan aldığını ve farkın hala oldukça büyük olduğunu gösteriyor. Oysa o büyük gürültüyle tanıtılan açık kaynak LLM'lerin çoğu, puanlarını 1 civarında gezindiriyor ve henüz GPT-4'ün dörtte birine bile ulaşamıyor. Bilinmelidir ki, GPT-4 bu yıl mart ayında piyasaya sürüldü ve bu, küresel rakiplerin yarım yıl sonra elde ettiği bir başarı.
Bu farkı yaratan, OpenAI'nin yüksek seviyede bilim insanları ekibi ve uzun süreli LLM araştırmalarının birikimidir; bu sayede her zaman lider konumunu korumaktadır. Başka bir deyişle, büyük modellerin temel yetenekleri parametrelerde değil, ekosistem inşasında yatmaktadır ) açık kaynak ( ya da saf akıl yürütme yeteneği ) kapalı kaynak (.
Açık kaynak topluluğu giderek daha aktif hale geldikçe, çeşitli LLM'lerin performansları benzer hale gelebilir, çünkü herkes benzer model mimarileri ve veri setleri kullanıyor. Daha somut bir sorun ise: Midjourney dışında, görünüşe göre hiçbir büyük model kâr elde edemiyor.
Değer Göstergesi Arayışı
Bu yılın Ağustos ayında, "OpenAI'nın 2024 sonunda iflas etme olasılığı" başlıklı bir makale dikkat çekti. Makalenin ana fikri, neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok hızlı.
Makalede belirtildiği gibi, ChatGPT'nin geliştirilmesinden bu yana, OpenAI'nin zararları hızla artmıştır, 2022'de yaklaşık 540 milyon dolar zarar etmiştir ve sadece Microsoft'un yatırımlarıyla ayakta kalabilmektedir. Bu makalenin başlığı çarpıcı olmasına rağmen, birçok büyük model sağlayıcısının mevcut durumunu da ortaya koymaktadır: maliyetler ve gelirler arasında ciddi bir dengesizlik vardır.
Yüksek maliyetler, şu anda AI ile gerçekten büyük para kazananların sadece Nvidia olduğunu ve muhtemelen bunlara Broadcom'un eklenebileceğini gösteriyor. Danışmanlık şirketi Omdia'nın tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 çipi sattı. Bu, verimli bir AI çipi ve dünya genelindeki teknoloji şirketleri ve araştırma kurumları tarafından büyük bir talep görüyor. Eğer bu 300.000 H100 çipini üst üste koyarsak, ağırlığı 4,5 adet Boeing 747 uçağına eşdeğer olur.
NVIDIA'nin performansı buna bağlı olarak fırladı, yıllık gelir %854 arttı, bu da Wall Street'i şaşkına çevirdi. Ayrıca, H100'ün ikinci el piyasada fiyatı 40-50 bin dolara yükseltilmişken, malzeme maliyeti yalnızca yaklaşık 3000 dolar.
Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişiminde bir engel haline gelmiştir. Sequoia Capital, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatına 200 milyar dolar harcamayı beklediğini tahmin etmiştir; buna karşılık, büyük modeller her yıl en fazla 75 milyar dolar gelir üretebilmekte ve en az 125 milyar dolarlık bir açık bulunmaktadır.
Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler yatırdıktan sonra henüz bir kâr modeli bulamadı. Sektörün önde gelen isimleri Microsoft ve Adobe bile zorluklarla karşı karşıya.
Microsoft'un OpenAI ile işbirliği içinde geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft'un her ay 20 dolar zarar etmesine sebep oluyor; yoğun kullanıcılar ise Microsoft'un her ay 80 dolar zarar etmesine yol açabiliyor. Bu nedenle, 30 dolarlık Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirketin zarar etmesine yol açmasını önlemek için hızlı bir şekilde uyumlu bir puan sistemi başlattı. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecek.
Dikkat edilmesi gereken bir nokta, Microsoft ve Adobe'nun iş sahneleri net olan ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğudur. Öte yandan, çoğu büyük parametreli modelin en önemli uygulama alanı hala sohbet etmektir.
Inkar edilemez ki, eğer OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi gerçekleşmeyebilirdi; ancak şu anda, büyük modellerin eğitiminden elde edilen değer hala sorgulanmaktadır. Homojen rekabetin artması ve açık kaynaklı modellerin çoğalmasıyla, sadece büyük model tedarikçileri daha büyük zorluklarla karşılaşabilir.
iPhone 4'ün başarısı 45nm süreçli A4 işlemcisinde değil, bunun bitki savaşı zombileri ve öfkeli kuşlar gibi uygulamaları oynayabilmesindedir.