- AIテックニューストゥデイ

「マルチエージェントで賢くなった気がするけど、テストすると全然伸びてない」
そんな経験、ありませんか？

LangChain のエージェント機能や AutoGen、CrewAI を組み合わせて、
「PM役」「設計役」「実装役」「レビュー役」……と役割を増やせば増やすほど、
デモは派手になるのに、肝心の精度は微妙。コストだけ爆増。

正直、僕も何度かやらかしました 😇

その「嫌な予感」を、ちゃんと論文レベルでぶった切ってくれたのが
「Why Do Multi-Agent LLM Systems Fail?」＝マルチエージェントLLMはなぜ失敗するのか という研究です。

この記事はこの論文解説（Zenn / Qiita のまとめ）を踏まえて、
単なる要約ではなく、「じゃあ現場エンジニアとしてどう考えるべきか？」 を、かなり辛口で書きます。

一言でいうと：「マイクロサービス熱」の再来です
なぜ「マルチにした途端にダメになる」のか
コミュニティの空気：みんなうすうす気づいていた
じゃあ「マルチエージェント＝全部ダメ」なのか？
1. まだ「あり」だと思う場面
2. ぶっちゃけ「やめとけ」なパターン
「強い1エージェント vs マルチエージェント」真の競合はどっちか？
「マルチエージェント前にやるべきこと」が山ほどある
じゃあ、今すでにマルチエージェントを本番投入している人は？
1. やった方がいいチェック
懸念点：この論文が生む「逆張りバイアス」も危ない
結論：プロダクションで使うか？正直まだ様子見です

一言でいうと：「マイクロサービス熱」の再来です

この論文、ざっくり言うとこうです。

一言で言うと、「マルチエージェントLLM界のマイクロサービス過信ブームに対する冷水」みたいな存在です。

たくさんのタスク・フレームワーク（ChatDev / MetaGPT / AG2 / HyperAgent / AppWorld など）を実際に動かしてログを収集
そこで起きている失敗パターンを14種類に分類（MASFT というタクソノミー）
その上で
「マルチエージェントは、シングルエージェントを体系的には上回らない。むしろ悪化することが多い」
と定量的に示した

これ、マイクロサービス黎明期にあった話とそっくりです。

当時の空気：
「モノリスはダサい。マイクロサービスに分解すればスケールするし、チームも自律する！」
実際：
小〜中規模プロダクトに持ち込むと
レイテンシ増える
障害ドメイン増える
オペレーション地獄
→ 素直なモノリスの方が全体として健全

マルチエージェントLLMもほぼ同じ構図です。

空気：
「専門家エージェントを分業させれば精度爆上がりするでしょ」
実際（論文の結果）：
正答率ほぼ変わらないか、悪化
トークンコストと設計コストだけ増える
失敗パターンはむしろシングルより増える

「構造を細かく分ければ賢く見える」けど、
“見かけの知的さ” と “実際の性能” を混同してない？という問いです。

なぜ「マルチにした途端にダメになる」のか

論文と解説を読むと、失敗原因はけっこう人間くさいです。
が、残念ながら人間組織のメタファーを、そのまま LLM に当てはめると壊れる。

研究では、代表的なマルチエージェント構成を片っ端から試しています：

並列ブレインストーミング型
→ 複数エージェントが案を出して最後に集約
ディベート / 議論型
→ A案/B案を戦わせて「より良さそう」な方を選ぶ
ロール分離型
→ 「設計者」「実装者」「レビュア」「テスター」などに分割

見た目はすごくそれっぽい。
でもログを解析すると、中身はけっこうグダグダです。

論文がまとめた「失敗モード」を人間語で雑に要約すると：

インストラクションと設計がそもそも崩壊している

仕様を守らない（FM-1.1）
→ チェスのルールを作れと言ったのに、勝手に座標制のシステムを設計する
役割を守らない（FM-1.2）
→ アイデア出し役が勝手に最終決定までしてしまう
同じ作業を延々リトライ（FM-1.3）
会話履歴を忘れる（FM-1.4）
終了条件が理解できない（FM-1.5）

「役割を増やせば賢くなる」どころか、
役割を増やすほど“やってほしいこと”がぼやけていく構図です。

エージェント同士の「チームプレー」が機能不全

いい感じに進んでいた会話が、突然リセットされる（FM-2.1）
わからないのに確認しない（FM-2.2）
途中でタスクから話が逸れていく（FM-2.3）
重要な情報を共有しない（FM-2.4）
他エージェントの意見をガン無視（FM-2.5）
推論と行動が噛み合わない（FM-2.6）

「協調」どころか、「ノイズの増幅」と「誤解の連鎖」が起きているわけです。

検証と終了がガバガバ

まだ終わってないのに勝手に終わる（FM-3.1）
結果をまともに検証しない（FM-3.2）
検証ロジック自体が間違っている（FM-3.3）

「レビュー役エージェント」「テスター役エージェント」を置けば
自己検証が効く、と思いたくなりますが、
元の推論力と事実性が同じ LLM である以上、その自己検証も同じくらい怪しい。

コミュニティの空気：みんなうすうす気づいていた

最近の Zenn / Qiita や各種スレを眺めていると、
この論文の結論に近い感覚は、すでにコミュニティでは共有されつつあります。

「マルチエージェントRAGとか凝る前に、ローカルRAGをちゃんとチューニングした方が精度もコスパもいい」
「エージェントメモリ入れても、実運用だとノイズだらけで、結局ログ検索＋手動プロンプトの方が信用できる」
「LangChainで巨大なマルチエージェント組むぐらいなら、llama_index＋薄いラッパの方が挙動を追いやすい」

要するに：

実務ガチ勢ほど、「強い1エージェント + RAG/ツール」の路線に回帰している

この論文は、その空気に科学的な裏付けを与えたポジションです。

じゃあ「マルチエージェント＝全部ダメ」なのか？

ここは少しフェアに見ておきたいポイントです。

論文は「マルチエージェント万能論」に冷水を浴びせていますが、
マルチエージェントの可能性そのものを否定しているわけではない。

僕なりに整理すると、こうです：

まだ「あり」だと思う場面

UX・演出重視のケース
ゲーム内キャラクター
教育コンテンツの「先生と生徒」役
複数の人格に議論させて「納得感」を演出したいとき

→ 精度より体験価値が重要な領域。
ここでは、マルチエージェントは普通に強い武器です。

異質なコンポーネントを束ねるとき
LLMエージェント + シミュレータ + 数理最適化ソルバ + ルールエンジン
これは「マルチエージェント」というより「マルチコンポーネント・システム」。

→ LLM同士の議論というより、
異種ツールを接着するハブとしてのエージェントは意味があります。

コンテキスト分離のための「最小限の分割」
論文とは別系統ですが、Plan-and-Act のような
「Planner（計画）と Executor（実行）を分けてコンテキストを分離する」設計は、
長期タスクでの途中終了を防ぐのに効くという報告もある。

→ 「たくさんエージェントを増やす」のではなく、
2〜3個に絞った“戦略的な分割”ならまだ勝ち筋はあります。

ぶっちゃけ「やめとけ」なパターン

正直、次のような設計は、論文を読むとかなり厳しいです。

「要件エージェント → 設計エージェント → 実装エージェント → テストエージェント → デプロイエージェント」みたいな
人間組織の焼き直しアーキテクチャ
「専門家エージェント同士に議論させれば精度が上がるはず」という
根拠薄めのディベート構成
「とりあえず LangChain / AutoGen / CrewAI でマルチエージェント構成組んどけば“今っぽい”でしょ」という
デモ駆動アーキテクチャ

論文のメッセージをラフに言い直すと：

“人間の会社組織ごっこ” を LLM にそのままやらせても、
パフォーマンスはほとんど上がらないどころか、ノイズが増えるだけ

です。

「強い1エージェント vs マルチエージェント」真の競合はどっちか？

論文解説でも触れられていますが、
マルチエージェントの真のライバルは 「強い単一LLM + ツール/RAG」構成 です。

性能

多くのタスクで
強い1エージェント >= マルチエージェント
明確にマルチが勝つケースはかなり限定的

議論させたからといって、推論力や事実性が魔法のように上がるわけではない。

コスト

マルチエージェント：
Nエージェント × 複数ターン → トークン爆発
シングル + ツール/RAG：
外部APIやベクタ検索のコストはあるものの、
普通はマルチエージェントより安い

しかも、LLM API料金は今後も下がるとしても、
“思考ターン数” が増える構成はレイテンシ的にもしんどい。

設計・運用

マルチエージェント：
役割設計
通信プロトコル設計
合意形成ロジック
デバッグ・評価
→ どれも地味にキツい
シングル + ツール/RAG：
「どのツールをどう使わせるか」「どう検索させるか」に集中できる

結論としてはかなりシンプルで：

現時点でプロダクションに載せるなら、
“シングルエージェント・ファースト” が合理的

と僕は考えています。

「マルチエージェント前にやるべきこと」が山ほどある

コミュニティの Hidden Gems（経験談）を総合すると、
マルチエージェントに行く前にやるべき宿題が、実はかなりあります。

たとえば：

RAGの設計を詰める
chunk 戦略
再ランキング
クエリ変換
インデックス構成
ツール設計を詰める
LLM が扱いやすい粒度のツールに分解する
失敗・タイムアウト時のリカバリ
評価パイプラインを整える
「議論が賢そうか」ではなく
- 正答率
- タスク完遂率
- トークンコスト
で AB テストできるようにする

これらをちゃんとやるだけで、
「マルチエージェントで盛るより、圧倒的に ROI がいい」という声が多い。

ぶっちゃけ：

マルチエージェントは「宿題全部終わったあとに触る自由研究」ぐらいの位置づけがちょうどいい

と感じています。

じゃあ、今すでにマルチエージェントを本番投入している人は？

ここが一番つらいところかもしれませんが、
論文のメッセージを真面目に受け止めるなら、一度棚卸しをした方がいいです。

やった方がいいチェック

シングル構成での AB テスト
既存のマルチエージェントタスクを
「強い1モデル + RAG/ツール」で組み直して比べる
ログを見て、“議論用トークン” が本当に価値を生んでいるか確認
ただ自己会話ループになっていないか？
同じことを別エージェントが繰り返していないか？
「マルチである理由」を明文化できるか？
精度が何％上がる想定なのか
どのメトリクス（Recall？ Precision？ Latency？）を改善したいのか
それを計測できる状態になっているか

ここが言語化できないなら、
かなりの確率で「かっこいいから」「デモ映えするから」という理由だけで構成が肥大化している可能性があります。

懸念点：この論文が生む「逆張りバイアス」も危ない

最後に一つだけ、逆方向の懸念も書いておきます。

この論文が強いのは、

多数の既存フレームワークを実際に動かした
大量ログを解析して14の失敗モードを整理した

という実証的なところですが、
だからといって 「マルチエージェントは全部ダメ」と一般化しすぎるのも危険です。

評価に使ったモデルバージョンは時間とともに変わる
今後、自然言語ではなく
より構造化された通信プロトコルが普及すれば、状況が変わる可能性もある
HRO（高信頼組織）理論を本気で取り込んだ
「ちゃんとしたエージェント組織設計」が出てくるかもしれない

とはいえ、「今動いている多くのマルチエージェント実装」が
“人間組織ごっこ” レベルで止まっているのも事実。

なので僕のスタンスはこうです：

研究としてはいくらでも遊べばいい。
でもプロダクションでは、「シンプルな単一エージェントを限界まで鍛えてから」それでも足りない部分にだけピンポイントでマルチを導入する。

結論：プロダクションで使うか？正直まだ様子見です

最後にこの記事のタイトルに答えるなら、こうです。

プロダクションにフルマルチエージェント構成を据えるか？
→ 正直、まだ様子見です。
どこから手を付けるべきか？
「強い1モデル + RAG + ツール + ちゃんとした評価」を先に整える
そのうえで、必要最小限（Planner/Executor など）の分割だけ試す
人前のデモや UX 演出には、遠慮なくマルチエージェントを使う（ただし「盛り仕様」と割り切る）

マルチエージェントLLMは、
「次世代のインフラ」になりうるポテンシャルは確かにあります。
でも現時点では、

「実務で殴り合ったときに、
シンプルなシングルエージェント構成に勝てていない」

というのが、この論文と現場の実感が合致したところだと思います。

もしあなたが今、「マルチエージェントでなんとなく賢くなった気がしている」だけなら、
一度ログとコストを冷静に眺めてみてください。

もしかすると、その賢そうなチームは、ただの高コストなおしゃべり集団かもしれません。