T 最新テックトレンド
Baseten_CEO_Tuhin_Srivastava_on_Custom_Models,_and_Building_the_Inference_Cloud

Baseten_CEO_Tuhin_Srivastava_on_Custom_Models,_and_Building_the_Inference_Cloud

🎙
No_Priors:_AI,_Machine_Learning,_Tech,_&_Startups

この記事は、以下の YouTube 動画の内容をまとめたものです。

https://www.youtube.com/watch?v=XAbKflCncDo

AI推論の最前線:Basetenが切り拓く「最後の市場」と未来のAIインフラ戦略

近年、人工知能(AI)技術の進化は目覚ましく、特にGenerative AIの登場は、その可能性を一般の認識レベルまで引き上げました。かつてSFの物語の中にあったような未来が、今や現実のものとなりつつあります。しかし、この目覚ましい進歩の裏側では、技術的なボトルネックや市場の複雑なダイナミクスが存在します。

今回は、AI推論クラウドを提供するBasetenのCEO兼共同創業者であるTuhin Srivastava氏が、No Priorsポッドキャストで語った洞察をもとに、AIコンピューティングのキャパシティ制約、推論がなぜ「最後の市場」と呼ばれるのか、ワークロードの変化、そしてオープンソースとマルチチップの未来について深く掘り下げていきます。Basetenが過去1年間で30倍という驚異的な成長を遂げ、今年は10億ドル以上の収益を見込んでいるという事実は、彼らがこの急速に進化する市場の核心を捉えている証拠と言えるでしょう。

AI市場の「最後のフロンティア」としての推論

AIの遍在化と推論の重要性

Tuhin Srivastava氏は、AIが「あらゆる場所に導入可能」であるという認識が広まっていることを指摘します。これは、ChatGPTのような大規模言語モデル(LLM)が人々の想像力を掻き立て、多種多様な業界でAIの活用が模索されるようになった結果です。

AIのライフサイクルは大きく**学習(Training)推論(Inference)**の2つのフェーズに分けられます。学習フェーズでは、膨大なデータを用いてモデルが知識を獲得し、推論フェーズでは、学習済みモデルが新たな入力に対して予測や判断を行います。Generative AIの登場により、これまで人間が行っていた創造的な作業や複雑な問題解決にもAIが応用されるようになり、その結果、AIモデルを実世界で動かすための「推論」の重要性が飛躍的に増しています。

学習は一度行えば完了するプロセスであるのに対し、推論はユーザーからのリクエストがあるたびに継続的に発生します。そのため、推論のコスト、速度、信頼性は、AIアプリケーションがビジネスにおいて成功を収める上で極めて重要な要素となります。学習に比べれば推論は低コストで行えることが多いとはいえ、その量が莫大になるため、トータルコストやインフラの複雑性は無視できません。Basetenの驚異的な成長は、この推論市場が持つ計り知れない可能性を如実に物語っています。多くの企業がAIを自社の製品やサービスに組み込む中で、効率的かつスケーラブルに推論を実行できるプラットフォームへの需要が爆発的に高まっているのです。

Basetenの急成長が示す市場の熱狂

Basetenは、過去1年間で事業規模を30倍に拡大し、今年は10億ドル以上の収益を予測しているとSrivastava氏は語ります。これは、単なる技術的なトレンドではなく、経済全体に大きな影響を与える本格的なシフトが起きていることを示唆しています。彼らの顧客は、AIモデルをデプロイし、本番環境で実行するためにBasetenのプラットフォームを利用しています。この成長は、企業がAI技術の価値を認識し、それを具体的なビジネス成果に結びつけるための実用的なソリューションを求めていることの明確な表れです。

Srivastava氏は、推論がAI市場における「最後のフロンティア」であると表現します。たとえ汎用人工知能(AGI)が実現したとしても、その知能を実世界で活用するためには、推論というプロセスが不可欠だからです。この「最後の市場」を制することは、AI時代の覇権を握ることに等しいと言えるでしょう。

オープンソースモデルの台頭とアプリケーションレイヤーの価値

オープンソースモデルの進化と実用性の向上

AIモデルの選択肢は、クローズドソース(GPTシリーズなど)とオープンソース(Llamaシリーズなど)の両方で大きく拡大しています。Srivastava氏によると、特にオープンソースモデルの能力は「ある種の閾値」を超え、実用的なアプリケーションに十分な性能を提供するようになりました。数年前にはMistralのような比較的小規模なモデルが注目されていましたが、MetaがLlamaを発表して以来、その状況は一変しました。これにより、企業は特定のニーズに合わせてカスタマイズ可能な高性能モデルを、以前よりもはるかに容易に入手できるようになりました。

このオープンソースモデルの成熟は、AI市場に新たなダイナミクスをもたらしています。以前は、限られた大手企業のみが最先端のAIモデルを開発・利用できましたが、オープンソースモデルの登場により、より多くの企業がAIの恩恵を享受できるようになりました。これは、AIの民主化を促進し、イノベーションの速度を加速させる重要な要因となっています。

顧客によるモデルのインハウジングとカスタマイズの傾向

Srivastava氏の観察によると、顧客はますますインファレンスモデルを「自社で運用(インハウジング)」し、「独自のインテリジェンスを所有」する傾向にあります。これは、モデルがビジネスのコア競争力に直結する場合、外部サービスへの依存を減らし、より詳細なコントロールと最適化を求めるためです。

特に、企業はモデルを独自のデータでファインチューニング(Post-training)し、ビジネス固有のニーズに合わせてカスタマイズしています。Basetenで処理されるトークンの95%以上がカスタムモデルからのものであるという事実は、この傾向の強さを裏付けています。顧客は、汎用的なモデルだけでは達成できない精度やパフォーマンスを、カスタムモデルによって実現しようとしているのです。

アプリケーションレイヤーの存在意義:ユーザーシグナルが生み出す差別化

Srivastava氏は、独立したアプリケーションレイヤーがAI時代においても「存在し続ける」と強く信じています。彼の視点では、その価値は「企業が独占的に収集できるユーザーシグナル」にあります。このユーザーシグナルはモデルに組み込まれ、その企業独自の「堀(moat)」を形成します。

例えば、医療分野のスタートアップであるAbridgeは、医療用アンビエント・スクライブを提供しています。これは、医師と患者の会話を記録し、電子カルテに自動的に要約を作成するAIアシスタントです。Abridgeは、臨床医のメモやワークフローに深く統合することで、他の汎用AIモデル提供者ではアクセスできない独自のユーザーシグナル(医師の編集履歴、診療の具体的な流れなど)を獲得しています。このシグナルを活用してモデルを継続的に改善することで、Abridgeは競合他社が容易に追随できない強力な競争優位性を築いています。

Srivastava氏は、フロントランナーのAIモデル企業(例: OpenAI, Anthropic)が、このような特定のワークフローに深く食い込むのが難しいと指摘します。なぜなら、それにはドメイン固有の深い知識、既存システムとの複雑な統合、そしてユーザーとの継続的なインタラクションが必要だからです。このように、独立したアプリケーションレイヤーは、単に基盤モデルのAPIを呼び出すだけでなく、その上に独自の価値層を構築することで、AIエコシステムにおいて不可欠な存在として残り続けるでしょう。

エンタープライズAI導入の未来予測

現在の市場の大部分(99%)は、Abridge、Decagon、Open Evidence、Cursor、Gammaといった新規アプリケーション企業がAIを顧客に販売する形です。これらの企業は、AIネイティブなアプローチで特定の課題を解決し、急速に成長しています。

しかしSrivastava氏は、この状況が将来的に変化すると予測します。企業がAIツールやクローズドソースモデルAPIの利用から始め、その後、自社のビジネスに特化したカスタムモデルを構築・採用するようになるというものです。これは、AIの導入が初期の実験段階から、より深くビジネスプロセスに統合される成熟段階へと移行するにつれて、必然的に起こる進化と考えられます。そして、このエンタープライズ領域におけるAIの本格的な採用は、まだ大部分がこれから来る市場であり、Basetenのようなインフラプロバイダーにとって計り知れない機会を秘めているとSrivastava氏は語ります。

ワークロードの変化とカスタムモデルの優位性

Basetenにおけるカスタムモデルの支配的な割合

Basetenのプラットフォームで処理されるトークンの大半、具体的には95%以上が顧客のカスタムモデルからのものです。これは、AIアプリケーションが実世界の課題を解決する上で、汎用的な基盤モデルだけでは不十分であり、個別のユースケースに特化した調整が不可欠であることを明確に示しています。企業は、自社の独自のデータを用いてモデルをファインチューニングし、その結果として生まれるカスタマイズされたモデルが、彼らのビジネスにとって真の価値を生み出す源泉となっています。

能力(Capability)がコストに先行する理由

Srivastava氏は、顧客がAIモデルを選ぶ際の優先順位について興味深い洞察を共有しています。彼は、多くの企業がまず「能力(Capability)」を重視し、コストは後回しにしていると指摘します。これは、AIがまだ変革期の技術であり、その導入によって得られる経済的成長や競争優位性が、初期投資のコストをはるかに上回ると期待されているためです。

例えば、医療分野のAIアシスタントが診断の精度を飛躍的に向上させたり、顧客サービスAIが顧客満足度を大幅に改善したりするならば、その「できること」の価値が何よりも優先されます。Srivastava氏は、顧客が「最高のモデルを使いたい」と考えていることを強調し、それがAI市場におけるイノベーションの原動力となっています。コスト最適化のフェーズは、その能力の価値が確立された後に訪れるという見方です。

ポストトレーニングの戦略的意義:買収とR&Dの強化

Basetenは、カスタムモデルの重要性を深く理解しており、Posttrain AIというチームを買収しました。Posttrain AIは、Basetenの顧客でもあり、カスタムモデルのポストトレーニングを専門としていました。この買収の背後には、「顧客に早期に密着し、彼らのニーズをより深く理解し、サポートする」という戦略的な狙いがあります。

Srivastava氏は、インファレンスとポストトレーニングが「密接に関連している」と強調します。モデルが実世界でどのように機能するか(インファレンス)を理解することは、そのモデルをどのように改善すべきか(ポストトレーニング)についての貴重なフィードバックを提供します。例えば、モデルの量子化(精度を保ちつつモデルサイズを縮小する技術)をいつ、どのように行うべきかは、そのモデルがどのように学習され、どのように推論に利用されるかによって最適解が異なります。Basetenは、Posttrain AIチームの専門知識を取り込むことで、このインファレンスとポストトレーニングのループを強化し、顧客がより効果的にAIを運用できるよう支援しています。このR&Dへの投資は、単なる技術的な強化に留まらず、顧客との関係を深め、プラットフォームのスティッキネス(顧客がサービスを使い続ける要因)を高める上でも重要です。

AIコンピューティングのキャパシティ制約と供給戦略

深刻なサプライチェーンの逼迫と高い利用率

AIコンピューティングの分野では、需要が供給をはるかに上回る深刻なキャパシティ制約が続いています。Srivastava氏によると、BasetenのGPUクラスターの利用率は「不快なほど高い」ミッド90%台に達しています。これは、GPUを含むAIチップの供給が限られている一方で、AIモデルの学習と推論の需要が爆発的に増加している現状を反映しています。

Basetenは、この課題に対応するため、世界中の18の異なるクラウドプロバイダーに90以上のクラスターを展開することで、可能な限り計算資源を確保しようと努めています。しかし、Srivastava氏は、このような分散型アプローチを取ってもなお、供給は追いついていないと語ります。これは、AIインフラの構築が、単一のクラウドプロバイダーや特定の地域に依存するのではなく、グローバルな視点と柔軟な戦略を必要とすることを示唆しています。

この供給不足の状況は、過去6ヶ月間で、顧客がBasetenに求める契約期間(term length)が長くなっていることからも見て取れます。企業は、将来的な計算資源の確保に不安を感じ、より長期の契約を結ぶことで、安定したAI運用を目指しているのです。

GPUのコモディティ化とソフトウェアの価値向上

Srivastava氏は、「GPUをサービスとして提供するだけではスティッキーではない」と指摘します。顧客はGPUをコモディティと見なし、より安価な選択肢があれば容易に乗り換えてしまう可能性があります。実際、NvidiaのGPUは性能面で優位性を持っていますが、AMDやGoogle、各社が独自に開発するAIチップなど、選択肢は増えつつあります。

しかし、Basetenが提供するような「ソフトウェアレイヤーと組み合わせたインファレンス」は非常にスティッキーです。顧客が自社のワークフローやデータに合わせて構築したカスタムモデルを、特定の最適化されたソフトウェア環境で実行している場合、そのシステムからの移行は容易ではありません。Srivastava氏の言葉を借りれば、「皆、単にGPUのベアメタルが必要なのではなく、それを非常にうまく実行できるソフトウェア・プリミティブが欲しい」のです。この洞察は、AIインフラ企業がハードウェアだけでなく、それを最大限に活用するためのソフトウェア、ツール、エコシステムの構築に注力することの重要性を浮き彫りにしています。

競合と協調:Nvidiaのエコシステムと自社開発のバランス

AIチップ市場におけるNvidiaの圧倒的な優位性は広く認識されています。NvidiaのCUDAプラットフォームは、その強力な開発者エコシステムとともに、AI学習・推論の標準となっています。Srivastava氏は、短期的な視点では、Nvidiaの供給網とCUDAエコシステムがAI競争において依然として決定的な優位性を持つことを認めます。高速にイノベーションを進めるためには、Nvidiaの技術を活用することが最も効率的な選択肢であるという現実があります。

しかし、Basetenは、長期的な視点では多様なチップの活用とオープンソースの重要性を強調します。インファレンス特化型チップやデコード特化型チップ(Grok AIのLPUなど)の登場は、特定のAIワークロードにおいてNvidia以外の選択肢が競争力を持つ可能性を示唆しています。Basetenは、このような多様なハードウェア環境に対応できる柔軟なインフラを提供し、顧客が最適なソリューションを選択できるようにすることを目指しています。

また、Srivastava氏は、中国製のモデルに関する地政学的な懸念についても言及します。セキュリティやモデルに組み込まれたバイアスへの懸念から、米国独自のオープンソースモデルを開発することの重要性が高まっています。しかし、Deepseekのような高性能なオープンソースモデルが存在する中で、それを利用できないことはイノベーションの損失につながる可能性もあります。この複雑な状況において、Basetenは、オープンソースモデルのメリットを享受しつつ、顧客が安心して利用できるようなセキュリティと信頼性を提供することに注力しています。

未来のAIインフラとBasetenのビジョン

マルチチップの未来:推論特化型チップの登場

AIコンピューティングの未来は、単一の高性能GPUに依存するものではなく、より多様なハードウェアで構成されるマルチチップの世界へと向かっています。Srivastava氏は、将来的には推論に特化したチップや、さらにデコードに特化したチップが登場すると予測します。これらのチップは、特定のAIワークロードに対して、より高い効率と低コストでの実行を可能にします。

すでにGrok AIが開発しているLPU(Language Processing Unit)のような事例は、この方向性を示唆しています。LLMの推論には、プロンプト処理(prefill)と応答生成(decode)という2つの異なるフェーズがあり、それぞれに異なる計算特性が求められます。汎用GPUではなく、これらのフェーズに特化したチップを組み合わせることで、大幅な性能向上が期待できます。Basetenのようなインフラプロバイダーは、このような多様なハードウェアに対応できる柔軟なランタイム環境を提供し、顧客が最適なハードウェアとソフトウェアの組み合わせを選択できるようにすることが求められます。

ジェボンズのパラドックスとAI需要の拡大

経済学の概念である「ジェボンズのパラドックス」は、ある資源の利用効率が向上すると、その資源の消費量が減少するどころか、かえって増加するという現象を指します。Srivastava氏はこのパラドックスがAIにも当てはまると考えます。AI推論のコストが下がれば下がるほど、その利用はより身近になり、結果として総体的なAIの利用量は飛躍的に増加するでしょう。

これは、より多くの人々がAIツールを利用し、より多様なアプリケーションが開発され、AIが社会のあらゆる側面に深く組み込まれることを意味します。Srivastava氏は、「推論のコストが下がれば下がるほど、より多くのインテリジェンスが生まれる」と述べ、これがAIイノベーションの強力なサイクルを形成すると見ています。

AIインフラを「所有」することの戦略的価値

AI時代において、コンピューティングリソース、特に推論のためのリソースを「所有」することは、企業にとって極めて重要な戦略的資産となります。Srivastava氏は、これを「ホットチョコレートを作るのにミルクなしではできない」という比喩で表現し、コンピューティング能力がAI時代の基本的な原材料であることを強調します。

供給が制約される世界では、計算資源を確保し、それを効率的に運用する能力が、企業の競争力を左右します。Basetenは、自社でインフラを構築・運用するだけでなく、顧客が複数のクラウドやオンプレミス環境でモデルをデプロイできるよう支援することで、この「コンピューティングの所有」という概念を具現化しています。これにより、顧客は単にGPUを借りるだけでなく、その上で動作するAIのインテリジェンス全体をコントロールし、最適化することが可能になります。

Basetenが目指すループ:推論、ポストトレーニング、継続学習のサイクル

Basetenの最終的なビジョンは、推論、ポストトレーニング、そして継続的な学習がシームレスに連携するループを構築することです。このループは、以下の要素で構成されます。

  1. 効率的な推論: ベストプラクティスに基づいたランタイムとシステムレベルの最適化により、低コストかつ高信頼性でモデル推論を実行します。
  2. ポストトレーニング: 顧客独自のデータとフィードバックを活用し、モデルを継続的にファインチューニングして性能を向上させます。
  3. 継続学習: 推論からの実世界データや評価フィードバックを学習ループに戻し、モデルが常に最新かつ最適な状態を保つようにします。

このループを加速させるため、Basetenは技術的課題の解決にも積極的に取り組んでいます。例えば、KVキャッシュのルーティング最適化や、PrefillとDecodeの分離といった推論効率化技術、さらには安全なコード実行環境(サンドボックス)の提供などです。Srivastava氏は、「インフラ企業にとって最も重要なのは、いかに早く動けるか」だと語り、迅速なイノベーションと市場への適応が、この競争の激しい分野で成功するための鍵であることを強調します。

リーダーシップと文化:信頼と迅速な意思決定の重要性

Basetenの成功の裏側には、彼らが構築した独自の企業文化とリーダーシップ哲学があります。Srivastava氏は、マイクロマネジメントを排し、「信頼できるリーダーに全権を委ねる」ことの重要性を強調します。これは、エンジニアが自律的に問題解決に取り組み、新しい技術を探求できる環境を育む上で不可欠です。

Basetenは、「ファーストプリンシプルで考える人々」を高く評価し、謙虚さ(low ego)と協調性を重視する文化を醸成しています。このような環境は、未知の領域であるAIインフラの課題に臆することなく挑戦し、革新的なソリューションを生み出すための土壌となります。Srivastava氏は、過去12ヶ月間の急成長の中でも、この文化を維持し、さらに強固なものにしてきたと語ります。

結論

AI推論市場は、Generative AIの爆発的な普及とともに、技術的、経済的、さらには地政学的な側面で大きな変革期を迎えています。BasetenのCEO、Tuhin Srivastava氏の洞察は、この複雑な市場の核心を捉え、未来のAIインフラがどのように構築され、進化していくかについての貴重な指針を提供します。

供給不足の続くAIコンピューティング市場において、Basetenは、分散型インフラ、ソフトウェアによる付加価値、そしてインファレンスとポストトレーニングを繋ぐ独自のループによって、顧客に真の価値を提供しています。GPUがコモディティ化する中で、ソフトウェアレイヤーのスティッキネスと、顧客が自社のAIインテリジェンスを所有・最適化できる環境を提供することが、今後の競争優位性の鍵となるでしょう。

AIは、そのコストが下がり、利用が拡大するにつれて、社会のあらゆる側面に深く浸透していくことが予測されます。この「最後の市場」を制する企業は、私たちの未来を形作る上で極めて大きな影響力を持つことになるでしょう。Basetenの挑戦は、単なる技術企業の成長物語に留まらず、AIがもたらす新たな産業革命の行方を占う上で、今後も注目すべき重要な指標となるはずです。