ソフトバンク×インテルの次世代メモリ技術 ZAM 協業

eyecatch AI関連

「GPUメモリが足りないから、モデルを泣く泣く小さくした」
「分散学習の sharding 地獄に数週間持っていかれた」

……そんな経験、ありませんか?

正直、ここ2〜3年のAIインフラって「計算よりメモリがボトルネック」なんですよね。
計算性能はGPUを足せば一応スケールする。でもHBMが足りない・帯域が足りない・発熱がやばいで詰む。

そんなタイミングで、ソフトバンク×インテルが「ZAM」という次世代メモリを引っさげてきました。
ぶっちゃけ、ただの「新メモリです!」だったらここまで話題にならなかったと思います。


一言でいうと、「GPU が計算を変えたように、ZAM は“メモリの当たり前”をひっくり返したい技術」🤯

一言でいうと、「GPU が計算を変えたように、ZAM は“メモリの当たり前”をひっくり返したい技術」🤯

今回の ZAM(Zero-time Access Memory / Z-Angle Memory)、
ニュース記事だけ読むと「大容量・広帯域・低消費電力の新メモリ」としか見えません。

でも技術資料をちゃんと読むと、狙っているのはかなりラディカルです:

  • 従来前提だった階層型メモリ(L1/L2/L3/DRAM/SSD)によるレイテンシ差を、論理的にはほぼフラットにしたい
  • GPUの「HBMが狭いからモデルを分割する」という前提を壊したい
  • それをx86エコシステム(Intel CPU/GPU/FPGA)に実装前提でやる

一言でいうと:

「GPU前夜に CUDA が出てきたときの“地殻変動前夜感”を、
今度はメモリでやろうとしている」

そんな匂いがします。


歴史のデジャヴ:これは「SSDがHDDの常識を壊した瞬間」に近い

技術的なインパクト感として、僕が一番近いと思ったのはこれです:

  • HDD 時代:
  • 「ランダムIOはとにかく悪。シーケンシャルに並べろ」が正義
  • SSD 普及後:
  • ランダムアクセス前提の NoSQL、インメモリDB、ログ構造ストアが一気に現実的に

同じように、今のAIは:

  • 今:
  • 「GPUローカルHBMは超速いけど狭い。ホストメモリやストレージは遅いから極力触りたくない」
  • → モデル並列・パイプライン並列・tensor/parameter sharding・KVキャッシュ退避…
    とにかく“HBMに収めるための工夫”がコードとアーキテクチャの大半を占めている

  • ZAMがうまくいくと想定される世界:

  • 「巨大かつほぼ均一レイテンシのメモリ空間が、CPU/GPUからそこそこフラットに見える」
  • → 「とりあえず全部メモリに置いて単一ノードで回そう」が現実解になる

SSD で「ランダムアクセス = 絶対悪」という常識が崩れたように、
ZAM で「メモリは一番の制約」という前提が相対的に薄れるかもしれません。


何がそんなにヤバいのか:NVIDIA との比較で見る ZAM の本質 🚀

何がそんなにヤバいのか:NVIDIA との比較で見る ZAM の本質 🚀

この手の話は、「誰が一番困るか?」を見るのが理解の近道です。
今回は、ほぼ間違いなく NVIDIA です。

今の NVIDIA ワールド

  • GPU + HBM + NVLink + CUDA の「閉じた垂直統合」
  • 価値の中核は:
  • HBMつきGPUという「高帯域だけど容量は限られる“特別なメモリ空間”」
  • その上に最適化された CUDA / cuDNN / TensorRT / NCCL などのSDK群
  • 暗黙のビジネス前提:
  • 「メモリは高価で足りない」ほど、HBM付きGPUの“希少性”が上がる

Intel + ZAM が描きたい世界(推定含む)

公開情報レベルだと:

  • ZAM は DRAMの発展形+新構造(縦積み 16層など)で
  • 高容量
  • 広帯域
  • 低消費電力
  • Intel の AMT/NGDB プログラムで蓄積した次世代メモリアーキテクチャ + 3D構造 + 接続技術を活用
  • CPU/GPU/FPGA などへの統合前提で検討中

もう少し「もし本当に狙い通り動くなら」の世界観まで踏み込むと:

観点 NVIDIA 現行スタック Intel + ZAM (もしうまくいけば…)
近接メモリ GPUローカルHBM(超高速・中容量) GPU/CPU/FPGA から見える「巨大かつほぼフラットなZAM」
メモリ前提 「GPUローカルがプレミア。そこに押し込め」 「どこに置いてもレイテンシ差を細かく意識しない」
スケール戦略 HBM容量に合わせたモデル分割・パイプライン・張りぼて最適化 単一ノード(または少ノード)にモデルまるごと+データ大量ロード
ロックイン CUDA へのドロップイン依存 x86 エコシステム + oneAPI/SYCL ベース(になる可能性)

つまり、ZAM が実用レベルまで行くと:

「HBM 付き GPU という“狭くて高級なメモリ空間”に合わせて世界中が頭を捻る構造」
そのものに疑問符がつき始める

正直、これはNVIDIA のビジネスの一部を根本から侵食しうる動きです。
だからこそ、Intel がここに本気を出してくるのはかなり筋がいい。


開発者から見た「何が変わるのか」:コード設計レベルのパラダイムシフト

「メモリが一番の制約」という前提が揺らぐ

今の LLM / マルチモーダル / 動画モデル開発は、
設計のかなりの割合がメモリ節約テクニックに食われています:

  • モデル並列、パイプライン並列の分割戦略
  • ZeRO / Fully Sharded Data Parallel (FSDP) 的なパラメータ分散
  • 量子化・チェックポイント圧縮・オフロード最適化
  • KV キャッシュ退避先(GPU ↔ ホストRAM ↔ SSD)最適化

ZAM が効いてくると(もちろん程度によりますが)、

  • 「この複雑な分散ロジック、本当に必要?」
  • 「素直に単一ノードに全部載せて計算したほうが速くない?」

という世界線のシナリオが増えていくはずです。

データ構造の“常識”が変わるかもしれない

今はキャッシュ局所性が王様です:

  • 構造体より配列
  • ポインタよりインデックス
  • グラフよりテンソル
    …みたいな考え方がまだまだ強い。

ZAM が「論理的にはランダムアクセスでもレイテンシを意識しない世界」を目指すなら、

  • ポインタだらけのグラフ構造
  • ランダムアクセス前提のインデックス
  • 超巨大スパース構造

の相対的なコストが下がって、
むしろ表現力・柔軟性重視の設計がしやすくなるかもしれません。

分散学習の“戦場”が変わる

  • これまで:
  • ノード間通信(InfiniBand / RoCE)の最適化が主戦場
  • いかに AllReduce / AllToAll を減らすか

  • ZAM 普及後を想像すると:

  • 単一ノード内のメモリ空間がバカでかくて速い
  • “多ノードスパコン”から“超強力な1ノード+少数ノード”への回帰もありうる

DataLoader や分散ランタイムの最適化ポイントそのものが変わります。


正直ここが一番危ない:3つの「現実的な懸念」😅

正直ここが一番危ない:3つの「現実的な懸念」😅

夢のある話ばかりしてきましたが、冷静な話もしておきます。

懸念1:Zero-time という名前、ほぼ確実に「盛っている」問題

物理的にゼロレイテンシメモリは存在しません。
Zero-time は明らかにコンセプトワードで、

  • 「階層差を意識しなくていいくらいフラット」
  • 「アクセスパターンに依存しない体感」を目指している

という意味合いだと読むべきです。

でも、実効レイテンシや帯域の数字が一切出ていない現状では、

  • DRAM + α 程度なのか
  • それとも HBM / CXL メモリを桁違いで上回るのか

は全くのブラックボックス。
ここを見誤ると、「期待値バブル → ガッカリ感」のパターンになりかねません。

懸念2:Optane の亡霊 ― コスト・量産・エコシステムで死なないか?

インテルには3D XPoint / Optaneという前科があります。

  • 技術としては面白かった
  • でも:
  • コスト
  • 需要の読み違え
  • ソフトウェア側の最適化不足
  • で、静かにフェードアウトしました。

ZAM も:

  • 縦積み構造(今のところ 16層)+新アーキテクチャ
  • 高容量・高帯域・低消費電力を同時に狙う

となると、製造コストと歩留まりが相当シビアになります。
結果として、

  • 「AI ハイエンドだけのニッチで超高価パーツ」
  • 「クラウド大手の一部 SKU 限定」

で終わる可能性も十分あります。

懸念3:結局「インテルロックイン」になるリスク

ZAM は今のところ、

  • ソフトバンク子会社 SAIMEMORY
  • Intel プラットフォーム(CPU/GPU/FPGA)の統合前提

という構図です。

CUDA ロックインに疲弊している我々としては、
「また別ベンダーのロックイン要因を増やすのか?」という懸念もあります 🤔

  • ZAM をフル活用したコードやアーキテクチャ
    = Intel プラットフォーム最適化
  • 他ベンダー(AMD, NVIDIA, ARM系カスタムなど)での再利用は?
  • → おそらくかなり難しい

マルチクラウド/マルチベンダー戦略を取っている企業にとっては、
ここはかなり慎重に見ないといけないポイントです。


いつ来るのか?:タイムラインの現実チェック

公開されているロードマップは、

  • 2027年度中:プロトタイプ
  • 2029年度中:実用化

つまり、

  • 今〜2,3年は、まだコンセプト+初期サンプルの段階
  • 実際にクラウドやオンプレ製品として使えるのは、
    早くて 2030年前後 という見積もりが妥当です。

なので、

  • 「今動いているプロダクションを ZAM 前提で作り直す」
    → さすがに時期尚早
  • 「次の5〜10年のアーキテクチャ戦略の1候補として頭に入れておく」
    → これはやっておく価値がある

くらいの温度感がちょうどいいと思います。


プロダクションで使うか?正直まだ“完全に様子見”です

プロダクションで使うか?正直まだ“完全に様子見”です

現時点での個人的な結論を、かなりストレートに書きます。

✅ 今やるべきこと

  • 互換性を心配して、
    「Python / C++ / CUDA コードが動かなくなるのでは?」と怯える必要はまったくないです
  • ただし、アーキテクト/インフラ担当としては:
  • 「メモリが最も希少なリソース、という前提に依存しすぎている設計」を
    どこに抱えているか棚卸ししておく
  • モデル分割・圧縮・オフロードロジックを
    将来シンプルに差し替えられるようモジュール化しておく

これは ZAM に限らず、他のメモリ技術進化が来ても効く“保険”になります。

👀 中期的にウォッチすべきポイント

  • Intel から:
  • ZAM 搭載製品の具体名(コードネーム、容量、帯域、TDP)
  • 接続インターフェース(CXL? PCIe? 独自?)
  • ソフトウェア側:
  • oneAPI / SYCL / DPC++ あたりに ZAM-aware な API が出てくるか
  • PyTorch / TensorFlow / JAX のランタイムが ZAM をどう抽象化するか

ここが見えてくるまでは、PoC や研究用途以外で本気コミットするのは危険です。

🤝 長期的なスタンス

  • 「GPU時代以前のコード」と「GPU時代のコード」がまったく違うように、
    ZAM 時代には“メモリ前提が違うコード”が当たり前になる可能性があります。
  • そのときに困らないように:
  • 「メモリ節約トリック」をビジネスロジックとベタに絡めない
  • “メモリを基準にした複雑な並列ロジック”を
    ミドルウェア層やライブラリ層に押し込めておく

こうしておけば、ZAM だろうが別の何かだろうが、
インフラ前提が変わったときに丸ごと差し替えやすい状態を保てます。


まとめ:ZAM は「期待していい。でも、踊らされない」

  • 技術コンセプトとしては、正直かなりワクワクします。
  • 「GPUが計算を変えた」のと同じクラスで、
    「メモリの常識を変える」ポテンシャルがあるのは事実だと思います。
  • 一方で、
  • Zero-time という名前の盛り方
  • Optane 的な“いい技術だけどビジネス的に死ぬ”リスク
  • インテルロックインの懸念
  • 2030年前後というタイムライン

を考えると、いまプロダクション前提で賭けに出るフェーズではないのもまた事実です。

なので僕のスタンスはこうです:

プロダクションでガチ採用?
→ 正直、まだ完全に様子見。
でも、「メモリがボトルネックじゃない世界」を前提にした設計を
今から頭の片隅でシミュレーションしておく価値は、かなり高い。

AI インフラの次の10年は、
「どのGPUを買うか?」よりも 「どのメモリアーキテクチャに乗るか?」 が効いてくるかもしれません。

ZAM は、そのゲームチェンジの“最初の一手”になりうる存在です。🚀

コメント

タイトルとURLをコピーしました