分散型AIを可能にするものとは──中央集権化するAIへの対抗軸

分散型AIは、Web3と生成AIの交差点を探求する人が増えるにつれて、ここ数カ月で再び注目を集めている。分散化がAIにとってプラスになることは多くの人が認めるところだが、具体的な技術的道筋は大きな障害にぶつかっている。

例えば同様に、分散型物理インフラネットワーク(DePIN)は、大手テックプラットフォームが支配するGPU集中ゲームに対抗し得ると考えることができるが、現実には、大規模基盤モデルの事前学習と微調整は、巨大な通信バスを備えた集中型GPUトポロジーを必要とする。

同様に、分散型データネットワークは、大企業へのデータ集中を緩和するための明確なアイデアのように思える。しかし実際には、この問題を解決しようとする試みは、あまり勢いを獲得していない。

AIの分散化について考えるとき、AIはますます中央集権的アーキテクチャへと進化していく傾向があり、それが分散化の取り組みをとてつもなく困難なものにしていることを認識することが重要だ。分散型生成AIがこうした当然の課題を克服するためには、4つの重要なトレンドに依存するか、影響を与える必要がある。

  • 分散型AIが実現可能になるためには、オープンソース生成AIがメインストリームになる必要がある。
  • 分散型AIは推論ゲームであり、それ以外の何ものでもない。 
  • Web3の計算&データインフラは、基盤モデルの要求を満たすためにスケーリングする必要がある。
  • 基盤モデルは、分散型インフラで実行できるように適合させる必要がある。分散型AIへの道のりは、ほとんどがこれら4つのアイデアのバリエーションに依存している。

中央集権的な力としてのAI

テクノロジーの歴史には、基本的に中央集権的なマーケットに向かって進化するトレンドがある一方で、よりオープンでバランスの取れたマーケットも存在する。モバイルは、2つの主要プレイヤーを持つ中央集権的マーケットへと進化したテクノロジーの典型的な例だ。

これは主に、ハードウェア、ソフトウェア、研究、サプライチェーン、流通の面で複雑な要件があるためで、これをマスターできる企業は限られている。データベースのようなトレンドは、オラクル(Oracle)、IBM、マイクロソフトのような企業による中央集権から始まり、多くのオープンソースプレイヤーが存在する競争マーケットへと発展した。

AIは、歴史上最も中央集権的なDNAを持つテクノロジーだ。これは明らかに、計算やデータといった分野での依存関係によるもので、これらも基本的には中央集権的だ。その観点から、AIマーケットがひと握りの企業によって支配されると予想するのは自然なことだ。

中央集権的マーケットには、対抗する力が必要だ。そして、ブロックチェーンがその要素になり得ると考えたくなる。その結論は方向性としては正しいが、実現するためには、オープンソース生成AIのメインストリームへの普及や、Web3のインフラや基盤モデルの進化だけでなく、外部マーケットの後押しが必要になるだろう。

オープンソース生成AIがメインストリームになる必要性

オープンソース生成AIなくして分散型生成AIは存在しない。オープンソース生成AIにおけるイノベーションの波は確かに息を呑むほどだが、OpenAI、Anthropic、グーグルに代わる現実的な選択肢となり得るのは、HuggingFace、メタ、Mistral、Stabilityといった数少ない企業のみだ。

セキュリティやプライバシーに強い制約のあるエンタープライズアプリケーションや、規制を受けた業界におけるAIスタートアップは、オープンソース生成AIにとって強力な成長ベクトルであるように思われる。

そのようなシナリオでは、Web3 AIインフラは実行可能な代替手段になり得る。オープンソース生成AIがある程度メインストリームになると仮定すると、次の課題は、生成AIソリューションのライフサイクルの中で、どのユースケースが分散型インフラに適しているかを理解することだ。

分散型AIは推論ゲーム

単純化して言えば、生成AIモデルのライフサイクルは、事前学習、微調整、推論の3つの主要フェーズに分けることができる。

最初の2つは、モデルにデータに基づいて知識を一般化させることに関係し、推論はモデルによって出力される予測に関係する。基盤モデルは、サイズが非常に大きく、複雑な計算が要求されるため、事前学習や微調整の点では分散型インフラはまったく実用的ではない。

数週間から数カ月にわたってデータを取り込み、モデルの重みを再計算できる、高性能通信バスで接続された数百、数千のGPUが必要だ。

言うまでもなく、事前学習や微調整に必要なデータはクラウドデータセンターに保存されていることが多く、分散型インフラに移すには法外なコストがかかる。

推論は、分散型生成AIにとって、はるかに現実的なシナリオであり、間違いなく、現在のテクノロジーの状態で機能し得る唯一のシナリオだ。マーケットの観点からも、推論は生成AIの収益の大きな割合を占めている。

分散型AIは、オープンソースの基盤モデルを使った推論に集中することが明白なので、どのタイプのWeb3インフラがそのようなユースケースをサポートできるかを考える必要がある。

Web3インフラに求められる成長

現世代のブロックチェーンは、推論であっても、大規模な基盤モデルを実行するようには設計されていない。この課題に対処するためには、より大規模で複雑な計算に最適化された新しいブロックチェーンが間違いなく必要だ。オフチェーンでの推論計算は良い妥協点だが、生成AIの中央集権化の懸念に完全には対処できない。

基盤モデルの小型化が必要

マイクロソフトは昨年、Phiと呼ばれる基盤モデルの研究と象徴的な論文「Textbooks is All You Need」に基づき、「小規模言語モデル(SLM)」という用語を作り出した。小規模なPhiはパラメーターがわずか30億、一連のコンピュータサイエンスのテキストで事前学習されており、数学とコンピュータサイエンスのタスクにおいて、700億のモデルを上回る性能を発揮した。

Phiの研究は、より小さく、より特化したモデルが、生成AIの普及に向けた最も重要なステップのひとつであることを示した。Web3インフラが基盤モデルを採用するためにスケーリングする必要があるのと同じように、SLMのトレンドはWeb3インフラ上で実行するモデルをより実用的なものにすることができる。近い将来、Web3インフラで1兆個のパラメータモデルが実行されることはないだろうが、20~30億は間違いなく可能だ。

分散型AIへの困難だが可能な道

分散型生成AIのアイデアは、概念的には簡単なことだが現実的には極めて難しい。AIは当然、ますます中央集権的なテクノロジーとして進化していくため、分散化の取り組みは苦しい戦いとなる。

オープンソース生成AIモデルのメインストリームへの普及は、分散型AIインフラの実現にとって不可欠だ。同様に、生成AIの現状は、分散型AIの初期のユースケースのほとんどが、事前学習や微調整よりも推論に焦点を当てることを示している。

分散型AIを実用的なものにするためには、Web3インフラを桁違いにスケーリングする必要がある一方、基盤モデルはより小さくなり、分散型環境に適応しやすくなる必要がある。

このような要素の組み合わせは、分散型生成AIへの最良の道を示している。その道は極めて困難だが、少なくとも現時点では確実に可能だ。

|翻訳・編集:山口晶子、増田隆幸
|画像:Shutterstock
|原文:The Enablers of Decentralized AI