各国のスタートアップ、テクノロジー大手、石油王たちが大規模モデルの夢を追い求めることができるのは、2017年にGoogleが発表した『Attention Is All You Need』という論文のおかげです。この論文はTransformerアルゴリズムを公開し、現在のAIブームの引き金となりました。現在、国籍に関係なく、世界を驚かせたGPTシリーズを含むさまざまな大規模モデルは、Transformerに基づいて構築されています。
これまでのところ、「機械に読書を教える」というのは公認の学術的難題でした。画像認識とは異なり、人間が読むときは現在の単語や文だけでなく、文脈を考慮して理解します。初期の神経ネットワークの入力は相互に独立しており、長いテキストや全体の文章を理解するのが難しかったため、「開水間」を「open water room」と翻訳するような問題が発生しました。
AI百模大战背後:技術の門槛ドロップ 商業の前景は依然として明朗ではない
AI分野での百モデル戦争が進行中だが、商業的な展望は依然として不明確である
先月、AI界で「動物の争い」が勃発しました。一方はMetaのLlamaモデルで、そのオープンソースの特性から開発者に広く支持されています。日本のNEC社はLlamaを研究した後、迅速に日本語版ChatGPTを開発しました。もう一方はFalconという大規模モデルで、5月に登場してからLlamaを押しのけてオープンソースLLMランキングのトップに立ちました。
興味深いことに、Falconはテクノロジー企業から生まれたものではなく、アラブ首長国連邦のアブダビ科学技術革新研究所によって開発されました。アラブ首長国連邦の官僚は、彼らがこの分野に関与する理由は「コアプレイヤーを覆すため」であると述べています。Falcon 180Bバージョンのリリース翌日、アラブ首長国連邦のAI大臣は『タイム』誌の「AI分野で最も影響力のある100人」に選ばれました。
現在、AI分野は百花繚乱の段階に入り、実力のある国や企業がそれぞれの大規模モデルを構築しています。湾岸地域だけでも、サウジアラビアは国内の大学向けに3000枚以上のH100チップをLLM訓練用に購入しました。
ある投資家がソーシャルメディアで不満を述べた:"当時、インターネットのビジネスモデルの革新を軽視し、障壁がないと思っていた。ハードテクノロジーの大規模モデルの起業が、依然として百モデル戦争であるとは思ってもみなかった..."
高いハードテクノロジーと称されるものが、どのようにして誰でも参加できる競争になったのか?
トランスフォーマーはゲームのルールを変える
各国のスタートアップ、テクノロジー大手、石油王たちが大規模モデルの夢を追い求めることができるのは、2017年にGoogleが発表した『Attention Is All You Need』という論文のおかげです。この論文はTransformerアルゴリズムを公開し、現在のAIブームの引き金となりました。現在、国籍に関係なく、世界を驚かせたGPTシリーズを含むさまざまな大規模モデルは、Transformerに基づいて構築されています。
これまでのところ、「機械に読書を教える」というのは公認の学術的難題でした。画像認識とは異なり、人間が読むときは現在の単語や文だけでなく、文脈を考慮して理解します。初期の神経ネットワークの入力は相互に独立しており、長いテキストや全体の文章を理解するのが難しかったため、「開水間」を「open water room」と翻訳するような問題が発生しました。
2014年、Googleで働いた後にOpenAIに転職したコンピュータ科学者イリヤ・サツケバー(Ilya Sutskever)が最初に突破を達成しました。彼はリカレントニューラルネットワーク(RNN)を使用して自然言語を処理し、Google翻訳の性能を競合他社に対して大幅に向上させました。RNNは「循環設計」を提案し、各ニューロンが現在の入力と前の入力の両方を受け取ることで「文脈を結合する」能力を持つようになりました。
RNNの出現は学界の研究熱をかき立てた。Transformer論文の著者であるノアム・シャジール(もその中に没頭していた。しかし、開発者たちはすぐにRNNの深刻な欠陥に気づいた:このアルゴリズムは順次計算を使用し、文脈の問題を解決できるが、実行効率が低く、大量のパラメータを処理するのが難しい。
RNNの煩雑な設計にサーシャはうんざりしていた。2015年から、彼は7人の同好者と共にRNNの代替品を開発し、最終的な成果がTransformerである。RNNと比べて、Transformerには2つの大きな革新がある。一つは位置エンコーディングを使用して循環設計を置き換え、並列計算を実現し、トレーニング効率を大幅に向上させ、AIを大規模モデルの時代に導いたこと。もう一つは、文脈理解能力をさらに強化したこと。
Transformerは多くの欠点を一挙に解決し、徐々にNLP)自然言語処理(の主流のソリューションとなりました。イリヤさえも自ら創り出したRNNを捨て、Transformer陣営に転向しました。言うまでもなく、Transformerは現在のすべての大規模モデルの祖先であり、それは大規模モデルを理論研究から純粋なエンジニアリングの問題に変えました。
2019年、OpenAIはTransformerを基にGPT-2を開発し、学界を驚かせました。Googleはすぐにより強力なAIモデルMeenaを発表しました。GPT-2と比較して、Meenaはアルゴリズムの革新はなく、トレーニングパラメータを8.5倍、計算能力を14倍に増やしただけです。Transformerの作者シャーゼルはこの「暴力的な積み重ね」に大いに衝撃を受け、「Meenaは世界を飲み込む」というメモを残しました。
Transformerが登場して以来、学界の基盤となるアルゴリズムの革新速度は大幅に鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要因が、AI競争の重要な要素となっています。一定の技術力を持つテクノロジー企業であれば、誰でも大規模モデルを開発できるようになりました。
コンピュータ科学者のアンドリュー・ングはスタンフォード大学で講演し、次のように述べました。「AIは、監視学習、非監視学習、強化学習、そして現在の生成的人工知能を含む一連のツールの集合です。これらはすべて、電力やインターネットなどの他の汎用技術に似た汎用技術です。」
OpenAIは確かにLLM分野の風向標ですが、半導体分析機関Semi Analysisは、GPT-4の競争力はエンジニアリングソリューションに由来すると考えています——もしオープンソース化されれば、どんな競合他社でも迅速にコピーすることができます。このアナリストは、他の大手テクノロジー企業も、GPT-4と同等の性能を持つ大規模モデルを開発できるようになるまで、あまり時間がかからないと予測しています。
城壁の堀はどこにありますか?
現在、「百模戦争」は比喩ではなく、現実となっています。報告によると、今年7月までに中国の大規模モデルの数は130に達し、アメリカの114を上回りました。国内のテクノロジー企業が名付けるための神話や伝説はほとんど足りない状態です。
中米を除く他の裕福な国々も、初歩的に「一国一模」を実現しました:日本、アラブ首長国連邦、そしてインド政府が主導するBhashini、韓国のインターネット企業Naverが開発したHyperClova Xなどです。このような光景は、まるでインターネットバブルの時代に戻ったかのように、各方面が次々と資金を投入しているようです。
前述のように、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。資金とハードウェアさえあれば、残りはパラメータの調整です。しかし、参入障壁が低くなったからといって、誰もがAI時代の巨人になれるわけではありません。
冒頭で言及された「動物の争い」は典型的な事例です。FalconはランキングでLlamaを上回っていますが、Metaにどれほどの影響を与えるかは難しいところです。企業が自社の研究成果をオープンソースにすることは、テクノロジーの恩恵を共有するためであり、社会の知恵を引き出すことを望んでいます。さまざまな分野でLlamaが継続的に使用・改善されることで、Metaはこれらの成果を自社製品に応用できるでしょう。
オープンソースの大規模モデルにとって、活発な開発者コミュニティこそが核心的な競争力です。Metaは2015年にAIラボを設立した際に、オープンソースの方針を確立しました。ザッカーバーグはソーシャルメディアを基盤にしているため、「群衆との関係を維持する」ことの重要性をより理解しています。
例えば10月、Metaは「AIクリエイターインセンティブ」イベントを特別に開催しました: Llama 2を使用して教育、環境などの社会問題を解決する開発者は、50万ドルの助成金を獲得するチャンスがあります。現在、MetaのLlamaシリーズはオープンソースLLMの風向計となっています。
10月初時点で、ある有名なプラットフォームのオープンソースLLMランキング上位10位のうち、8つがLlama 2を基に開発されており、すべてオープンソースライセンスを使用しています。そのプラットフォーム上には、Llama 2オープンソースライセンスを使用したLLMが1500以上存在しています。
性能の向上は確かに可能ですが、現在のほとんどのLLMはGPT-4とまだ明らかなギャップがあります。例えば、最近、GPT-4は4.41点でAgentBenchテストのトップに立ちました。AgentBenchは清華大学と複数のアメリカの有名大学が共同で発表したもので、LLMの多次元オープン生成環境における推論能力と意思決定能力を評価するためのものです。
テスト結果は、2位のClaudeがわずか2.77点を獲得し、依然として大きな差があることを示しています。一方で、声勢のあるオープンソースのLLMは、ほとんどが1点前後に留まり、GPT-4の4分の1にも達していません。GPT-4は今年の3月にリリースされたことを考慮すると、これは世界中の競合が半年以上追いついた後の成績です。
このギャップを生じさせているのは、OpenAIの高レベルな科学者チームと長年のLLM研究における経験であり、それにより常に先行しています。言い換えれば、大規模モデルのコア能力はパラメータではなく、エコシステムの構築にあります)オープンソース(または純粋な推論能力)クローズドソース(。
オープンソースコミュニティがますます活発になるにつれて、各LLMの性能は同じようになる可能性があります。なぜなら、みんなが似たようなモデルアーキテクチャやデータセットを使用しているからです。もう一つのより直感的な問題は、Midjourneyを除いて、実際に利益を上げられる大規模モデルが存在しないように思えることです。
価値のアンカーポイントを探す
今年8月、一篇題為「OpenAIは2024年末に破産する可能性がある」という記事が注目を集めた。記事の主旨はほぼ一言で要約できる: OpenAIの資金消耗速度があまりにも早すぎる。
記事によると、ChatGPTを開発して以来、OpenAIの損失は急速に拡大しており、2022年には約5.4億ドルの損失を出し、マイクロソフトの投資に依存せざるを得なくなっています。この記事はセンセーショナルなタイトルですが、多くの大規模モデル提供者の現状を語っています: コストと収入のバランスが深刻に崩れています。
過高なコストにより、現在AIで本当に大金を稼いでいるのはNVIDIAだけで、せいぜいBroadcomが加わる程度です。コンサルティング会社Omdiaによると、NVIDIAは今年第2四半期に30万枚以上のH100チップを販売しました。これは効率的なAIチップで、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を重ねると、その重さは4.5機のボーイング747に相当します。
NVIDIAの業績は急上昇し、前年同期比で収益が854%増加し、ウォール街を驚かせました。特筆すべきは、H100が中古市場で4万〜5万ドルにまで値上がりしている一方で、その材料コストは約3000ドルに過ぎないことです。
高い計算力コストは、ある程度、業界の発展の障害となっています。セコイア・キャピタルは、世界のテクノロジー企業が毎年2000億ドルを大規模モデルのインフラ構築に費やすと推定しています。それに対して、大規模モデルは毎年最大750億ドルの収入しか生み出せず、少なくとも1250億ドルのギャップが存在します。
さらに、Midjourneyなどの少数の例外を除いて、ほとんどのソフトウェア会社は巨額のコストを投じた後も、まだ収益モデルを見つけていない。業界のリーダーであるマイクロソフトやAdobeでさえ、課題に直面している。
マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、毎月10ドルを請求しているが、施設コストのためにマイクロソフトは逆に毎月20ドルの損失を出している。ヘビーユーザーは、マイクロソフトが毎月80ドルの損失を出すことさえある。このことから、価格が30ドルのMicrosoft 365 Copilotはさらに多くの損失を出す可能性がある。
同様に、Firefly AIツールを新たに発表したAdobeも、ユーザーの過剰使用による会社の損失を防ぐために、関連するポイントシステムを迅速に立ち上げました。ユーザーが毎月の配分ポイントを超えた場合、Adobeはサービスの速度を低下させます。
注目すべきは、MicrosoftとAdobeがビジネスシーンが明確で、多くの有料ユーザーを持つソフトウェアの巨人であるということです。そして、大多数のパラメータが膨大な大規模モデルの主なアプリケーションシーンは依然としてチャットです。
否定できないことですが、OpenAIとChatGPTが登場しなければ、このAI革命は起こらなかったかもしれません。しかし現在、大規模モデルのトレーニングがもたらす価値には疑問が残ります。同質化競争が激化し、オープンソースモデルが増える中、単純な大規模モデルの供給業者はより大きな課題に直面する可能性があります。
iPhone 4の成功は45nmプロセスのA4プロセッサーにあるのではなく、植物大戦僵尸や怒れる鳥のようなアプリを楽しめることにある。