【エンジニア必読】Gemini 3.1 Pro×Deep Think完全攻略：推論2倍で実務が激変する7つの使い方

「また新しい“最強AIモデル”が出ました！」と言われても、
正直、こう思ってませんか？

「で、それ俺の明日のタスクをどれだけ減らしてくれるの？」

この記事はそんなエンジニア向けに、Gemini 3.1 Pro と Deep Think モードを“実務目線”で丸ごと解説します。

この記事を読むと、ざっくりこんなメリットがあります。

「HLE」「ARC-AGI-2」みたいな新しめベンチマークが、現場のどのタスクに効く数字なのかが分かる
Gemini 3.1 Pro と Deep Think の使い分け方（どこからがDeep Think案件か）がイメージできる
レガシーコード診断・社内RAGボット・研究/新規事業の仮説出し用の具体レシピが手に入る
「とりあえず全部のモデルを試す」から卒業して、モデル選定を“パーティ編成”で考えられる

ニュース紹介ではなく、
「うちの現場でアリかナシか」を決めるための材料を一緒に整理していくスタイルです。

モデル増えすぎ問題に終止符？それでもGemini 3.1 Proだけは押さえたい理由
1. -1. それでも3.1 Proをチェックすべき“3つの利害関係”
2. -2. この記事でゴールする場所：『自分のユースケースでアリかナシか』を判断できる状態
3分で把握するGemini 3.1 ProとDeep Think：用語・位置づけ・できることまとめ
数字を“仕事の風景”に翻訳する：Gemini 3.1 Proのベンチマークを現場感で読み解く
Gemini 3.1 Pro vs Deep Think：どこまで任せる？ユースケース別おすすめ設定
日本からどう触る？Gemini 3.1 Proにアクセスする7つのルート
実務で使える3つのレシピ：Gemini 3.1 Proで“明日のタスク”を1つ楽にする
FAQ：日本語性能・安全性・コスト・他社モデルとの使い分け、全部まとめて答える
まとめ：Gemini 3.1 Pro時代に、エンジニアが“考える仕事”に専念するためのチェックリスト

モデル増えすぎ問題に終止符？それでもGemini 3.1 Proだけは押さえたい理由

「Gemini 3.1 Pro出ました」「Claudeなんとかが更新されました」「GPT 5.xが〜」
……正直、追うのそろそろしんどくなってません？

僕もXを開くたびに「また“人類史上最強モデル”が爆誕しました！」みたいなポストが流れてきて、
心の中ではだいたいこう思ってます。

「いや、こないだも“史上最強”って言ってなかったっけ？」

エンジニア視点で言うと、

実務に直結しないベンチマークの数字
触ってみても、前世代との差が体感しづらいアップデート
APIの料金・制限・互換性まで含めて追うコスト

このあたりが地味にキツい。
「全部キャッチアップ」は、もはやフルタイムでAIリサーチャーやってる人でもない限りほぼ無理ゲーです。

-1. それでも3.1 Proをチェックすべき“3つの利害関係”

じゃあ、なぜその中でGemini 3.1 Proだけは一度ちゃんと見ておいたほうがいいのか。

僕的には、ざっくりこの3つが理由だと思ってます。

“暗記ゲーじゃないテスト”でちゃんと点を取ってきている
Deep Thinkモードとのセットで、推論寄りタスクの現実解に近づいている
Googleエコシステムにどっぷりな人ほど、将来の選択肢に直結する

順に噛み砕きます。

(1) 「カンニングしにくい試験」で強い＝仕様あいまいタスクに効く

ZDNET Japan の記事によると、Gemini 3.1 Pro は「ARC-AGI-2」という論理テストで 77.1% を記録したとされています
（参考: 「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上 / ZDNET Japan, https://japan.zdnet.com/article/35244133/）。

ARC-AGI-2って何者かというと、ざっくり言うと：

「ルール説明なしのパズルを、その場でパターン読み取って解けるか？」

を測るテストです。

MMLU みたいな「過去問を山ほど食わせたら点が伸びる」系ベンチとは違って
訓練データにそっくりそのまま入っていたから高得点、というカンニング技が効きにくい

つまり、見たことない問題を“その場の理解力”で解く力を測ろうとしている系のベンチマーク。

現場に落とすと、例えばこんなタスクに直結します。

仕様書が半分ぐらいしか書かれていないサービスを渡される
挙動とログを眺めながら「このシステム、内部でどういうルールで動いてそう？」と推理させる
そのうえで、「こういう変更を入れたいけど、どこが危なそう？」と聞く

こういう「ドキュメントより現物のほうが真実」な日本の現場、かなり多いですよね……。
そういう“カオスとの戦い”の相棒候補としての性能アップという意味で、3.1 Proはちょっと無視しづらい存在になってきてます。

(2) Deep Thinkと合わせると「めちゃくちゃ考える係」がリアルになってきた

Google は同じタイミングで「Gemini 3 Deep Think」モードもメジャーアップデートしています
（参考: 前掲 ZDNET Japan 記事）。

ここがポイントで、Deep Thinkは別モデルじゃなくて「考え込ませるモード」です。

ふつうの 3.1 Pro：
日常のチャット、軽めのコード補完、資料の要約とか
レスポンスも速くて、開発中に横に置いておく相棒ポジション
3.1 Pro ＋ Deep Think：
数学、コーディング、科学系の難問寄り
代わりに「ちょっと待ってね」と時間と計算リソースを多めに使う

ZDNETの記事でも触れられている通り、Deep ThinkはARC-AGI-2で 84.6% と、3.1 Pro の 77.1% よりさらに上のスコア。
ただし「モード」なので、普段はOFF、ここぞでONが前提の設計です。

開発の現場感で言うと：

チケット小：
「SQLちょっと直して」「この関数テストケース3つだけ出して」→ 3.1 Proだけで十分
チケット大：
「このマイクロサービス群の境界線を引き直したい」
「新しいアルゴリズム案を3パターン比較してほしい」
→ Deep ThinkをONにして、“設計レビューで持って行けるドラフト”まで出してもらう

みたいなスイッチングが現実的な選択肢になりつつあるのが今回の肝です。

(3) Google圏内の人にとっては、将来の「デフォルトAI候補」

もう1つ、地味だけど大事なのが「どこで使えるか」。

ZDNET Japan によると、Gemini 3.1 Pro は発表直後から以下でプレビュー提供されています
（再掲: https://japan.zdnet.com/article/35244133/）。

開発者向け：
AI Studio
Android Studio
Google Antigravity
Gemini CLI
企業向け：
Vertex AI
Gemini Enterprise
一般ユーザー：
NotebookLM
Geminiアプリ（Google AI Pro / Ultra ユーザーで上限拡大）

ここから見えてくるのは、

「Google のサービスぜんぶに、“頭脳として3.1 Proファミリーを埋め込んでいくぞ”という方針」

です。

日本の現場だと、

すでに GCP でインフラを組んでいるチーム
社内が Google Workspace（Gmail, Docs, Sheets など）に寄っている会社
Android アプリをゴリゴリ書いているモバイルエンジニア

このあたりの人たちにとって、「将来のデフォルトAIがこれになるかも」という意味で、3.1 Proは押さえておいたほうがいい。

逆に、「自社が完全にMicrosoft 365＋Azure＋GitHub Copilotの世界にいる」なら、
無理して最優先で追う必要まではないかもしれません。

-2. この記事でゴールする場所：『自分のユースケースでアリかナシか』を判断できる状態

ここまでをざっくりまとめると、

モデルが増えすぎているのは事実なので全部追うのはやめていい
ただし Gemini 3.1 Pro は
「暗記ゲーじゃないテスト」でそこそこいい点を取ってきている
Deep Thinkモードとのセットで“めちゃくちゃ考える係”を現実的なコストで任せられそう
Googleエコシステムにどっぷりな人ほど、将来の標準AIになる可能性が高い

この3点から、「優先的に評価しておく候補」には入れておく価値がある、というのが僕の立ち位置です。

この記事全体では、

ベンチマークの数字を「実務の風景」に翻訳したり
3.1 Pro と Deep Think の使い分けパターンを整理したり
明日から試せるミニレシピ（コードレビュー支援とかRAGボットとか）を書いたり

していくので、読み終わるころには

「うちのプロジェクトだと、3.1 Proはここにはハマるけど、ここはGPT / Claudeでいいな」

みたいな“モデル選定の感覚値”が、自分の中で1段クリアになるはずです。

ここから先は、3.1 Pro の中身とDeep Thinkの位置づけを、もう少し具体的に覗いていきます。

3分で把握するGemini 3.1 ProとDeep Think：用語・位置づけ・できることまとめ

ここからは、「結局こいつら何者なの？」を3分でざっくり把握するパートです。
ドキュメント全部読む気力がないエンジニア向けのダイジェストと思ってください。

-1. Gemini 3.1 Proの立ち位置：汎用モデルが「考える方向」に1段ギアチェンジ

まず大枠から。

Gemini 3（2025年11月版）
マルチモーダル（テキスト / 画像 / 音声 / 動画 / PDF）で何でも受ける“フラッグシップ”
すでに Humanity’s Last Exam（HLE）で 38.3% を出して、「当時の全モデル中トップ」だった
（参考: 「『Gemini 3.1 Pro』が登場--推論性能が前バージョンの2倍以上に向上」 / ZDNET Japan

「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上
グーグルが「Gemini 3.1 Pro」を発表した。前バージョンの「Gemini 3.1 Pro」の2倍を超える推論性能を達成し、「HLE」ベンチマークでも44.4％を記録しているという。
japan.zdnet.com
）
Gemini 3.1 Pro（今回）
同じ「Proポジション」のマイナー版アップデートっぽい数字（3.1）だけど、中身は結構別物
特に「まったく新しい論理パターン」に挑む ARC-AGI-2 で 77.1% と、前世代 3 Pro の2倍超

イメージとしては、

3 = 何でもそこそこうまくこなす“秀才エース”
3.1 Pro = 同じエースなんだけど、「推論・ロジック寄りに筋トレしてきた」バージョン

という感じです。

技術仕様レベルでは、

コンテキストウィンドウ：約100万トークン
入力：テキスト、画像、音声、動画、PDF(最大1000ページ)、コード
出力：テキスト
（参考: Gemini Developer API 料金ページ / Google

Gemini Developer API の料金 | Gemini API | Google AI for Developers
Gemini Developer API の料金
ai.google.dev
）

…と、完全に「何でも投げとけ」系の汎用フロントエンド。

そこに「推論の精度を底上げしました」「長い入力もマシになりました」というチューニングが入った、という位置づけです。

-2. Deep Thinkってモデルじゃないの？：実は「考え込ませるモード」

名前的にめちゃくちゃ紛らわしいんですが、

Gemini 3 Deep Think = モデル名じゃなくて“思考モード”

です。

ZDNET Japanの記事でも、「Deep ThinkはAIモデルそのものではなく『モード』にあたり、推論より長い時間を使うことで、推論の性能を向上させている」と明言されています
（再掲: ZDNET Japan / https://japan.zdnet.com/article/35244133/）。

雰囲気で言うと、

同じ3.1 Proなのに
通常モード：
- さくさく会話する
- コードレビューもライトにこなす
- 「とりあえず動く解」をポンポン返してくる
Deep Thinkモード：
- 「ちょい時間ちょうだい」と言ってから、
- 数学・科学・コーディングの難問に対して、
- 論理展開やステップ分解をかなり丁寧にやってくる

というギアチェンジ。

Google 的にも、Deep Think は

「明確なガードレールや単一の正解が存在せず、データが煩雑あるいは不完全なことが多い問題」

に対応するために強化した、と説明しています
（同上 ZDNET Japan 記事より）。

つまり、

「仕様がグレー」「データが足りない」「正解も1つじゃなさそう」
でもなんとか筋の良い仮説や方針をひねり出したい

みたいな研究寄りタスク・アーキ検討・高度な設計レビューが、主戦場です。

-3. HLE（Humanity’s Last Exam）：人間寄りの“総合試験”でどれくらい解けるか

次に出てくるのが、この HLE（Humanity’s Last Exam） というベンチマーク。

名前だけ聞くと厨二っぽいですが、やってることはまじめで、

既存のベンチが簡単になりすぎたから、
「人間の試験っぽい難しさ」を目指して作られた総合試験

という位置づけです。

従来：MMLUみたいな「過去問暗記がある程度通用するテスト」
HLE：人間の能力と比較することで、モデルの進化をより厳しめに測ろうという設計

ZDNET Japan によると：

Gemini 3（2025年11月時点）: 38.3%
Gemini 3.1 Pro: 44.4%
Deep Thinkモード: 48.4%

と、ちょっとずつステップアップしています
（再掲: https://japan.zdnet.com/article/35244133/）。

パーセントだけ見ると「数ポイントじゃん」ですが、
“難問寄りでこの数ポイント”は、肌感だと結構でかいです。

現場に落とすと、

仕様がふわっとした要望を渡して、
想定ユースケースを洗い出してもらう
エッジケースを列挙させる
それをもとにテスト観点リストを作らせる
研究っぽいテーマで、
複数の論文や資料をまたいだ整理
前提条件の差分を指摘させる
合理的そうな次の実験案を出させる

といった「一発で正解を当てる」というより、“人間が次の一手を決めやすくするための整理”に効いてきます。

-4. ARC-AGI-2：ルールが書いてないパズルゲーム耐性のテスト

さっきも軽く触れた ARC-AGI-2 は、Google が「まったく新しい論理パターン」を解かせるために使っているベンチマーク。

事前にルールが説明されない
いくつかの入出力例を見て、「こういう変換をしてるのかな？」と自分でルールを推測
そのルールを使って新しい問題を解く

という、パズルゲームみたいなテストです。

ここでのスコアが：

Gemini 3 Pro：31.1%
Gemini 3.1 Pro：77.1%
Deep Thinkモード：84.6%

とされています
（前掲の note 記事
「Gemini 3.1 Pro完全解説 — 推論性能2倍超・価格は競合の半額。Googleが本気で「AI王座」を取りに来た」

Gemini 3.1 Pro完全解説 — 推論性能2倍超・価格は競合の半額。Googleが本気で「AI王座」を取りに来た｜アイドリ | AI-Driven Lab

本記事の対象者主な対象者： AIモデルの最新動向を追いかけているエンジニア、ビジネスパーソン、AI活用を検討している開発者を想定しています。技術レベル：初級〜中級を想定しています。LLMを触ったことがある方はもちろん、「ChatGPT...

より）。

これを現場タスクに翻訳すると、例えばこんな場面で効きます。

古い基幹システムのDBに、謎のフラグ列がいっぱいある
「この flag_a と flag_b と status_x の組み合わせって、
どういう業務ルールを表してそう？」と推測させる
仕様書がないバッチ処理のログを食わせて、
「どういう順番で、何をやっているように見える？」と
擬似フローチャートを作らせる
既存サービスを分解して、
どんなパターンの画面遷移・API設計・例外処理が
暗黙のルールとして埋まっていそうかを抽出させる

こんな感じで、「ルールが明文化されてない世界から、それっぽいルールを取り出してくる係」として働かせるときのポテンシャルを測っている、と考えるとイメージしやすいです。

-5. まとめると：3.1 Proが“普段の相棒”、Deep Thinkが“本気の相談相手”

ここまでの話を一言で整理すると、

Gemini 3.1 Pro
何でも受けられる汎用モデル
推論系のベンチマーク（HLE / ARC-AGI-2）が前世代からかなりアップ
日常のチャット、コーディング支援、資料整理の“いつもの相棒”
Deep Thinkモード
3.1 Pro に「考える時間と計算リソースを盛る」オプション
数学 / コーディング / 科学 / 研究課題系の難問で特に強み
未定義要素が多い設計検討、研究開発、複雑な仕様整理の
“本気の相談相手”

このあと詳しく書きますが、

チケット小・日常開発タスク → 3.1 Pro
要件定義・アーキ設計・研究寄りタスク → 3.1 Pro＋Deep Think

という切り方をイメージしておくと、使いどころを迷わなくなります。

次のセクションでは、これらのベンチマークの数字がエンジニアの1日をどう変えうるかを、「仕事の風景」に落として見ていきます。

数字を“仕事の風景”に翻訳する：Gemini 3.1 Proのベンチマークを現場感で読み解く

ベンチマークの表って、ぱっと見カッコいいんですが、
エンジニア的にはだいたいこうなりがちです。

「ARC-AGI-2 が 77.1%？で、俺の明日のタスクはどれだけ減るの？」

なのでここでは、数字 → 開発の1日に落とし込みます。
3.1 Pro の「推論2倍クラス」が、どこに効いてきそうかを具体的に見ていきます。

-1. 「推論性能2倍」は“レスポンス2倍速い”じゃない

まずここ、だいぶ誤解されがちなんですが、

推論性能アップ＝返事が速くなる

ではありません。
むしろ Deep Think ON だと遅くなります。考えてるので。

ZDNET Japan によると、Google は 3.1 Pro について

「Gemini 3 Pro の2倍を超える推論性能」
ARC-AGI-2 で 77.1%（3 Pro は約31.1%）

と説明しています
（参考: 「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上 / ZDNET Japan

「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上

グーグルが「Gemini 3.1 Pro」を発表した。前バージョンの「Gemini 3.1 Pro」の2倍を超える推論性能を達成し、「HLE」ベンチマークでも44.4％を記録しているという。

）。

ここで言っている “性能” は、

難しめの問題を、どれだけ正しく・一貫性を持って解けるか
特に「初見の論理パターン」「曖昧な条件つきの問い」への対応力

の話です。

もう少し肌感で言うと、

旧モデル：
10問中 4問くらいは「お、いい線いってるじゃん」
でも2〜3問は「いやそれ違うだろ…」みたいな回答が混じる
3.1 Pro：
10問中 7〜8問は「まぁこれ叩き台にできるな」
変な回答もゼロにはならないけど、致命的な勘違いは減る

この“ミスりにくさ”が、地味に効いてきます。

-2. HLEちょい上昇がもたらす、「グレーゾーン担当」の安心感

さっき触れた HLE（Humanity’s Last Exam）。
Gemini 3 → 3.1 Pro → Deep Think でこう伸びてます（ZDNET Japan より再掲）:

Gemini 3：38.3%
Gemini 3.1 Pro：44.4%
Deep Think モード：48.4%

数字だけ見ると「5〜10ポイントの差」に見えますが、
これは「わりと難しめの国家試験で偏差値が5上がる」くらいのイメージだと思ってます。

具体的な仕事の風景にすると、例えばこんな感じ。

ケース：新規Webサービスの要件定義〜実装

Before（旧世代モデル中心）：

プロダクトオーナーから Slack でふわっと要望が来る
「BtoB向けに請求管理を楽にするSaaS的なやつやりたい」
人間が頑張って：
ユースケースを洗い出す
競合調査をする
画面フローを書き出す
LLMの出番は、
文言の微修正
ペルソナの文章化
せいぜい API の叩き台生成

After（3.1 Pro ＋ところどころ Deep Think）：

まず 3.1 Pro に要件のたたき台を作らせる

  「BtoB請求管理SaaSを新規で作る。中小企業の経理担当者がメインユーザー。
  想定している機能を、利用シーン別に箇条書きで整理して。」

その上で Deep Think に、
「この要件、どの部分が“あいまい”か？」
「リスクが高そうな領域はどこか？」
「テスト観点を20個挙げて」
を投げて、グレーゾーンを洗い出してもらう
人間は、
そのリストを眺めながら PO と議論
「どこまでを今回のリリース範囲にするか」を決める

ここで効いてくるのが、

HLE のスコアが高い →
「人間の試験問題っぽい書かれ方」にもそこそこ対応できる
要件がグレーでも、
「それっぽい論点」「抜けやすい観点」を出してくる確率が上がる

という部分。

つまり、

「なんとなく不安なんだけど、どこが危ないか言語化できてない」

みたいな状況で、“危なそうなところリストアップ係”としての信頼感が増した、という感覚です。

-3. ARC-AGI-2アップは、「カオスな現場」ほど体感しやすい

ARC-AGI-2 の 77.1% って、どこに効くの？という話。

数字の裏にあるのは、

事前ルールなしのカオスに対して、
それなりにスジの良い「仮ルール」を発見してくる力

です。

日本の現場だと、例えばこんな場面で刺さります。

ユースケース1：謎フラグだらけのレガシーDB解析

現実にありそうな状況：

20年前から動いている基幹システム
テーブルに flag_a, flag_b, status_x, status_y … が並んでいる
仕様書は部分的にしか残ってない

ここで 3.1 Pro に、

このテーブル定義と、直近1ヶ月分のデータサンプルを見て、
flag_a, flag_b, status_x, status_y あたりが業務的に何を意味していそうか、
パターンを整理して仮説を出してください。

と投げると、

「flag_a が 1 かつ status_x が \"05\" のときは、〜〜状態の可能性が高い」
「flag_b と status_y の組み合わせは、〜〜フローの途中を表していそう」

みたいな「ありそうな仮説」を出してくる確率が、前より上がっているはずです。

もちろん100%当たるわけじゃないですが、

人間がログを目で追って「うーん…」と1時間悩む前に
それっぽい仮説候補を3〜5個ポンと出してもらえるだけで、

「検証すべきパターンのあたりをつける時間」がだいぶ圧縮されます。

ユースケース2：属人運用の“暗黙ルール”の可視化

よくあるのが、

特定の担当だけが分かっている
「このエラー出たときは本当はこっちのボタンを押す」とか
「このCSVフォーマットは毎回微妙に仕様が違う」とか

そういう属人TipsがSlackログやExcelやメールやらに散っていてカオス、というパターン。

ここで 3.1 Pro に、

この1年間のSlackチャンネルログと、運用ドキュメントを全部読んで、
「暗黙ルールっぽいもの」をカテゴリ別に抽出して。
例: 障害対応時の優先順位、CSVのフォーマット揺れ、電話での対応フローなど。

と投げてみると、

「障害対応時に、実際にはこの順番でやっていることが多い」
「CSVの列名の表記ゆれパターン」
「顧客別に微妙に違う運用ルール」

などをまとめた「暗黙ルール集」を作ってくれるイメージです。

ARC-AGI-2 が高いモデルほど、

明文化されてないパターン
例外的な処理が混じったログ

から、それっぽい「ルール候補」を見つけてくるのが得意になります。

-4. 数学・コーディング・科学の強さ：日々のチケットにどう落ちるか

Google は Deep Think のアップデートについて、

数学とコーディングの成果
化学と物理の能力向上

をうたっています（ZDNET Japan, 同記事）。

実務タスクに落とすとこんな感じです。

数学寄りタスク

広告の入札ロジックのパラメータ調整
在庫シミュレーションの簡易モデル作成
A/Bテストの設計（サンプルサイズ計算、検定方法の選定）

いままで：

「この式であってるっけ？」とググりながら Excel で試す
結局よく分からなくて、全部“大体こんなもん”で決めてしまう

3.1 Pro / Deep Think あり：

要件（予算、CV数、期間など）をテキストで投げて、
「前提 A/B/C のときの効果予測」
「サンプルサイズと検出力の関係」
を数式＋グラフのイメージ付きで説明してもらう

コーディング寄りタスク

既存モノリスの分割方針を考える
複雑なバグの再現手順整理
パフォーマンスボトルネックの仮説出し

例えば、

このサービス全体のディレクトリ構成と、代表的なAPIのコードをいくつか渡すので、
分割候補となる境界線（ドメイン単位）を3パターン提案して。
それぞれのメリット・デメリットも。

と Deep Think に投げると、

ユースケースごとの分割案
テーブル単位での分割案
インフラ（通信）観点での分割案

みたいに、複数軸の提案をまとめて返してくれます。

科学・研究寄りタスク

製造業や材料系の現場だと、

条件を変えたときのざっくりした傾向
過去論文のサーベイと、差分の整理
次に試すべき実験パターンの候補出し

みたいな、「正解が1つに決まらないタスク」が多いです。

Deep Think を ON にして、

この論文3本の手法と結果を比較して、
この制約条件（コスト、設備、時間）の中で現実的に試せそうなアプローチを
3パターン提案して。それぞれ、期待されるメリットとリスクも書いて。

と投げると、“仮説セット”を返してきてくれます。

-5. 1日のスケジュールで見た「3.1 Pro 時代のエンジニア」

ざっくりですが1日の過ごし方のBefore/Afterも置いておきます。

Before（旧モデル中心）

仕様相談 → 人力で要件整理
競合調査 → ひたすらググる
既存コード読解 → 影響範囲を自力で洗い出す
バグ調査 → ログとコードを人力で追う
仕様書清書・資料作成 → ほぼ手作業

After（3.1 Pro / Deep Think 併用）

ミーティング直後にメモを 3.1 Pro に投げて、「ユースケース一覧」「テスト観点ドラフト」を即生成
Deep Think にリスク・曖昧ポイントを整理させ、人間はPOと追加ヒアリング
既存コード＋ログを3.1 Proに読ませて「影響範囲サマリ」「怪しい箇所リスト」を出させる
Deep Think ONでアーキ案を数パターン出させ、レビュー＆意思決定に時間を使う

「調べる」「洗い出す」「パターンを整理する」系はかなりAIに寄せて、
人間は「決める」「交渉する」「レビューする」時間を増やす方向にシフトしやすくなります。

Gemini 3.1 Pro vs Deep Think：どこまで任せる？ユースケース別おすすめ設定

ここからは、エンジニア全員が一度は考えるであろう問いに答えます。

「いやもう全部 Deep Think ON にしときゃ最強では？」

結論から言うと、それをやると財布とメンタルが死にます。
なので、3.1 Pro と Deep Think の“役割分担”をちゃんと決めておいたほうがいいです。

-1. ざっくり比較：3.1 Pro と Deep Think の違い

まずはイメージ表を1枚。

観点	Gemini 3.1 Pro（通常）	3.1 Pro ＋ Deep Think
主な用途	日常チャット、軽〜中難度の開発支援	設計・研究・難問解析・意思決定直前タスク
応答時間	速い〜普通	明確に長め（考えてる）
推論の深さ	十分実用レベル	かなり深い（ステップ分解・検証が厚い）
コスト（計算量・料金）	ベースライン	通常より重い（回数は絞る前提）
向いているタスク粒度	小〜中サイズのチケット	大きめチケット／アーキ／研究テーマ
失敗したときの痛さ	軽め：「もう一回聞けばいいか」	重め：「ここでは外してほしくない」

ポイントは、

3.1 Pro：日々の「手と頭をちょっと貸してほしい」タスク担当
Deep Think：ここぞの「一緒に本気で悩んでくれ」担当

として割り切ることです。

-2. 案件タイプ別：「このパターンならこう使う」がわかる3シナリオ

シナリオA：社内チャットボット／ナレッジ検索

おすすめ運用：

ベース：3.1 Pro
FAQ的な質問
1〜2ドキュメントで完結する問い合わせ
Deep Think をオンにする条件
複数制度・部門にまたがるグレーな質問
過去議事録やポリシーがバラバラなところからの「例外パターン整理」

実装イメージ：

RAG（ベクトル検索＋3.1 Pro）でまず回答
「確信度」「参照ドキュメント数」が閾値以下なら Deep Think にスイッチして再考させる

シナリオB：新規プロダクトの技術選定＆アーキ検討

おすすめ運用：

一次調査・ブレスト：3.1 Pro
候補スタック一覧、類似OSS、競合構成などを一気に集める
候補の比較検討・リスク整理：Deep Think
社内制約込みで「パターンA/B/C」のメリデメ・将来リスクを深掘り
最終案の資料化：3.1 Pro
決めた案を非エンジニア向け資料に整形

→ 3.1 Pro：情報収集とアウトプット整形の“両端”担当
→ Deep Think：真ん中の「本気で悩むフェーズ」担当

シナリオC：研究開発・高度解析系のタスク

おすすめ運用：

日々のメモ／論文サーベイ：3.1 Pro
「次の一手」を決める前：Deep Think
既知の情報＋制約＋目的を全部書いたプロンプトで、実験案やアプローチ案を複数出させる
実験コード・可視化・レポート草稿：3.1 Pro

研究職ほど「ここはケチらず Deep Think」というポイントがハッキリ見えてきます。

-3. 「常にDeep Think最強では？」問題への現実的な回答

「Deep Think のほうが頭いいなら、全部それでよくない？」

理屈としては Yes、現場としては Noです。理由は3つ。

お金がかかる
Deep Thinkは内部トークン消費が増えがち＝実質的に1リクエスト単価が上がる
大量リクエストをDeep Thinkで回すとスループットもきつい
遅いと“対話探索”がしにくくなる
プロトタイピング中はサクサク会話したい
毎回20〜30秒待たされるとテンポが死ぬ
人間レビュー前提なら“そこまでの精度いらない”タスクも多い
コードレビューコメントの下書き、議事録要約、バグ原因候補リストなどは3.1 Proで十分なことが多い

逆に、Deep Think を使ったほうがいいのは、

お金まわり（料金計算、レート設計）
セキュリティ設計
外部仕様・API設計の“最終案”

みたいな「ここだけは外してほしくない」場所。

-4. 現実的な運用ルール案：Deep Think スイッチの張り紙を作る

プロジェクトごとに「Deep Think を使っていい場面リスト」を作っておくと楽です。

【3.1 Proだけで回すタスク】
- 日常のQ&A、コード補完、軽いバグ調査
- ドキュメント要約、議事録整理
- 仕様書の草案（v0.9まで）

【Deep Thinkを使ってよいタスク】
- システム全体のアーキ検討（図にする前の案出し）
- お金・セキュリティ・法務が絡む仕様の検討
- 研究開発の「次の実験案」づくり
- 属人運用の“暗黙ルール”の整理
- 大きめリファクタリングの分割案設計

【禁止事項】
- 単純な社内問い合わせボットでの常時Deep Think
- 単なる文言調整・翻訳タスクでのDeep Think
- トライアル中に大量バッチ処理をDeep Thinkで回す

こんな感じで「曖昧な空気感」じゃなくチェックリスト化しておくと、チームでも運用しやすいです。

日本からどう触る？Gemini 3.1 Proにアクセスする7つのルート

「3.1 Proすごそうなのはわかった。でもどこから触ればいいの？」
ってところで止まってる人、多いと思います。

しかも Google のサービスって名前のレイヤーが多いので、日本のエンジニア視点で整理し直します。

-1. まずはここから：ブラウザだけで触れる「Google AI Studio」

対象：個人開発・PoC・お試しでサクッと触りたい人
イメージ：「ブラウザ上で動く Postman ＋プロンプト実験場」

公式：https://ai.google.dev/gemini-api/docs/pricing?hl=ja

ざっくり手順：

Google アカウントでログイン
プロジェクトを作成
「Gemini 3.1 Pro プレビュー」系モデルを選ぶ
その場でプロンプトを試す
ブラウザ完結
入出力トークン数が見えてコスト感がつかみやすい
そのまま Python / Node / curl のサンプルコードを吐いてくれる

まずは通常モード vs Deep Think 相当の違いを体感する場として使うのがおすすめです。

-2. ローカルから叩きたい派へ：「Gemini CLI」でターミナル直アクセス

対象：ターミナル大好き勢
イメージ：「curlはダルいけどGUIは開きたくない」

Google 純正の Gemini CLI があります
（AI Ultra Access / Google AI Ultra for Business の説明にも登場
参考: https://support.google.com/a/users/answer/16352745?hl=ja）。

gemini chat 的なノリで対話
ローカルファイルも渡しやすい
--model gemini-3.1-pro-preview などでモデル指定

gemini chat --model gemini-3.1-pro-preview << 'EOF'
このリポジトリのREADMEを要約して、改善案を3つ教えて
EOF

みたいな感じで、
「いつもの開発フローにちょっとAIを混ぜる」感覚を掴むのにちょうどいいです。

-3. Android アプリ勢：Android Studio から 3.1 Pro を組み込む

対象：Android エンジニア / Kotlin勢

ZDNET Japan によれば、3.1 Pro は Android Studio からもプレビュー利用可能
（前掲: https://japan.zdnet.com/article/35244133/）。

GCP プロジェクトで Gemini API 有効化
Android Studio のAI連携テンプレやサンプルをベースに
model = "gemini-3.1-pro-preview" を指定

ユースケース例：

レシート画像→家計簿入力
メモアプリに「要約」「TODO抽出」ボタンを足す
チャットアプリにAI返信候補を生やす

-4. PC でエージェント遊びしたい人向け：「Google Antigravity」

対象：エージェント開発・VS Code 組
イメージ：「複数エージェントを管理するダッシュボード付きIDE」

Antigravity は

エージェントファーストの IDE（macOS / Windows / Linux）
複数の自律エージェントを生成・監視するダッシュボード＋エディタ

という位置づけ（参考: 前掲 note 記事）。

AI Ultra Access / Google AI Ultra for Business 契約者だと、

新モデルへの先行アクセス
高い利用上限
優先トラフィック

などの恩恵も。

まずは「Web調査 → 要約 → Markdown保存」くらいの小さいワークフローを、
Gemini 3.1 Pro エージェント1体で試してみるのが良さげです。

-5. 企業で“ちゃんと使う”なら：Vertex AI / Gemini Enterprise

対象：既に GCP を使ってる会社 / 情シス・SRE・MLエンジニア

ZDNET Japan：Vertex AI と Gemini Enterprise で 3.1 Pro を試用可能と明記

「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上
グーグルが「Gemini 3.1 Pro」を発表した。前バージョンの「Gemini 3.1 Pro」の2倍を超える推論性能を達成し、「HLE」ベンチマークでも44.4％を記録しているという。
japan.zdnet.com

Vertex AI 経由のメリット：

IAM / 監査ログ / VPC など、既存の GCP ガバナンスに乗せられる
データ取り扱いを契約ベースでちゃんと決めやすい
BigQuery / Cloud Functions など他サービスと連携しやすい

おすすめは、

機密度の低いデータでPoC
情シス・法務と社内ルール化
そこから徐々に扱うデータの機密度を上げる

という“段階的導入”です。

-6. 「エンジニアじゃないメンバーにも使わせたい」：Gemini アプリ＆Google AI Pro / Ultra

対象：ビジネス職・企画・営業 / 家族・同僚に布教したい人

ZDNET Japan によると、

一般ユーザー向けに Gemini アプリ
Google AI Pro / Ultra ユーザーは 3.1 Pro など高性能モデルへのアクセス上限が拡大

とされています
（再掲: https://japan.zdnet.com/article/35244133/）。

Google のヘルプ（AI Ultra Access / Google AI Ultra for Business）では、

Gemini アプリから Gemini 3 Pro / Deep Think などへアクセス
Veo 3 での動画生成なども含めたフル装備AI体験

が得られることが書かれています
（参考:
https://support.google.com/a/users/answer/16352745?hl=ja

AI Ultra Access - Google Workspace 管理者ヘルプ

AI Ultra Access アドオンでは、AI 機能と AI モデルを最大限に利用できるほか、Flow や Whisk などの特殊なタスク向けの次世代 AI ツールも利用できます。チームは動画生成や詳細な調査に取り組むことができるため、...

）。

企画職がGeminiアプリで要件整理／競合比較／企画書ドラフト → エンジニアがVertex AI/APIで実装
みたいな役割分担がやりやすくなるのがポイントです。

-7. ドキュメント読み倒す人向け：NotebookLM で“思考パートナー”にする

対象：リサーチ担当 / コンサル / 研究開発職

NotebookLM は リサーチ＆ノート作成支援ツールで、
3.1 Pro もバックエンドとして使われる予定（ZDNET Japan 記事より）。

AI Ultra Access / Google AI Ultra for Business を付けると、

ノート数・ソース数・クエリ数などの上限が増え
分析・音声要約・インフォグラフィック生成などをガンガン回せる
（参考: https://support.google.com/a/answer/16345165?hl=ja）

使い方イメージ：

論文PDF・要件定義書・議事録・仕様ドラフトを全部NotebookLMに投入
「矛盾している記述」「何度も出てくる論点」「反論パターン」などメタな問いを投げる

→ 長期プロジェクトほど「世界観を共有した相棒」として効いてくるタイプです。

ルート別ざっくりマップ

個人でまず試す → AI Studio
ターミナルで叩きたい → Gemini CLI
Androidアプリに組み込み → Android Studio
PCでエージェント遊び or 本格開発 → Antigravity
会社としてちゃんと運用 → Vertex AI / Gemini Enterprise
ビジネス職や家族にも → Gemini アプリ（Google AI Pro / Ultra）
長期プロジェクトの思考パートナー → NotebookLM

このあと実践編で、AI Studio / API前提のレシピを3つ紹介します。

実務で使える3つのレシピ：Gemini 3.1 Proで“明日のタスク”を1つ楽にする

「ベンチマークも理屈も分かった。で、明日なにに使えばいいの？」

というところにストレートに答えるパートです。

3つとも、今日の夜〜週末にちょっと仕込めば、来週から実戦投入できるレベルを意識してます。

レシピ1：レガシーコードの“健康診断レポート”を自動生成する

対象：

「このサービス触るの初めてなんですけど…」なエンジニア
レビューのたびに同じ愚痴を言っているテックリード

やることはシンプルで、

レポート作成を3.1 Proに丸投げして、
人間は「読むだけ」「優先順位を決めるだけ」にする

という発想です。

ざっくり構成

対象リポジトリから代表的なコードだけ抽出（全部じゃなくてOK）
3.1 Pro に「健康診断して」とお願い
出てきたレポートを人間が取捨選択＆優先順位付け

抽出基準としては、

エントリポイント
ルーティング/コントローラ層
500行超えの巨大ファイル
やたら依存が多いユーティリティ

あたり。

3.1 Proへのプロンプト例は本文のサンプルコードを参照してもらうとして、
Deep Think を足すなら「マイクロサービス分割案」「ドメイン境界案」を考えさせるところだけでOKです。

ざっくり感覚としては、初見サービスの読み込み1日→半日以下くらいまでは普通に狙えます。

レシピ2：RAG＋Geminiで“社内なんでも質問箱ボット”のロードマップを引く

対象：

情シス / 社内SE
「また同じ質問来た…」と心で泣いている人

ゴールは、“RAG＋Gemini構成の1号機”を動かすこと。

社内ドキュメントを収集（人事・情シス・公開済み仕様など）
ベクトルDBに格納（Chroma / Vertex AI Vector Search など）
3.1 Pro に「RAG前提」プロンプトで回答させる
難しい質問だけ Deep Think トリガー

重要なのは、プロンプトで

ドキュメントを最優先
分からないときは「不明」と答える

をガチガチに指定すること。
Deep Think は、「複数部署にまたがるグレー質問」「例外パターン整理」だけに絞って使うのがコスパ的にも安全です。

レシピ3：研究開発・新規事業で「仮説出しマシン」として使う

対象：

R&D / データサイエンティスト / 新規事業担当
「アイデア出しは得意だが整理が苦手」な人

やることは、

3.1 Pro ＋ Deep Think で、
「仮説のリストアップ」と「次の一手候補」を量産させる

こと。

ポイントは、

前提条件・制約・禁止事項をプロンプトにきっちり書く
Deep Think で10〜20個ほど仮説を出させる
人間が「実験コスト」「ビジネスインパクト」「説得難易度」でスコアリング
上位だけもう一度 Deep Think に投げて、実験プランまで落とす

という二人三脚サイクルにすることです。

FAQ：日本語性能・安全性・コスト・他社モデルとの使い分け、全部まとめて答える

ここまで読んでくれた方の頭の中、多分こうなってるはずです。

「なんか良さそうなのは分かった。でも日本語は？セキュリティは？ClaudeとGPTは捨てていいの？お金は？」

現場でよく出る質問だけサクッと潰していきます。

Q1：Gemini 3.1 Pro、日本語でどこまで戦える？英語とのハイブリッド運用もアリ？

ざっくり：

日常会話・ビジネス日本語 → かなり実用レベル
技術解説・コードレビュー → ほぼ問題なし
最新論文・ニッチ技術 → 英語で聞いたほうが情報量多い

なので僕のおすすめは、

問い合わせは英語で投げる
回答は日本語で要約させる

スタイル。

コードレビュー・仕様整理・議事録要約 → 日本語でOK
SOTA調査・英語OSS情報 → 英語質問＋日本語要約の二段構え

が安定です。

Q2：機密情報を入れても大丈夫？セキュリティの現実的なラインは？

結論：「環境とデータのレベルを分けて考えよう」です。

AI Studio / 無料API：PoC・個人検証用。本番データは入れない（入れるならダミー/匿名化）
Vertex AI / Workspace / AI Ultra for Business：
契約・ガバナンスが効くエンタープライズ用

おすすめ3ステップ：

無料API＋ダミーデータで価値を確認
情シス・法務と「そこまでしても使う価値があるか」を相談
価値がありそうなら Vertex AI / Workspace＋社内規程整備で本格導入

最初から全部ガチ本番要件で始めると、会議だけで燃え尽きるので注意です。

Q3：ChatGPT／Claude／Copilotと比べてどれが本命？結局“パーティ編成”で考える

どれが優勝か、ではなくRPGのパーティ編成で考えたほうが健康です。

ChatGPT：
プラグイン／外部連携の豊富さ
なんでも相談＋海外情報一次取得担当
Claude：
長文処理・要約・慎重さ
ビジネス文書・顧客向け文章担当
Copilot：
VS Code / GitHub との親和性
コード補完専任の戦士
Gemini 3.1 Pro (+ Deep Think)：
推論・設計・研究寄りタスク
Googleエコシステム連携担当の魔法使い

みたいな役割分担で、

「このプロジェクトは、戦士（Copilot）＋僧侶（Claude）＋魔法使い（Gemini）で行くか」

と考えると精神的にかなり楽になります。

Q4：お金の話：Deep Thinkを使うとどのくらいコストが跳ねるの？

料金は公式に詳しく出てます：
https://ai.google.dev/gemini-api/docs/pricing?hl=ja

ざっくり（2026年2月のオンライン推論）：

3.1 Pro 入力：$2.00 / 100万トークン（〜20万トークンのプロンプト）
3.1 Pro 出力：$12.00 / 100万トークン

Deep Thinkは別単価ではなく「モード」扱いなので、
1回あたりのトークン消費が1.5〜2倍になるイメージで見積もるのが安全です。

運用としては、

PoC：Deep Think多めで限界値を確認
本番：9割を通常3.1 Pro、重要/難度高タスクだけ Deep Think

＋大量バッチは Batch API で単価を下げる、が王道かなと。

まとめ：Gemini 3.1 Pro時代に、エンジニアが“考える仕事”に専念するためのチェックリスト

最後に、「で、明日から自分は何をすればいいの？」に直結する形でまとめます。

-1. 3行で振り返る：Gemini 3.1 Pro & Deep Think のツボ

Gemini 3.1 Pro は、ARC-AGI-2 や HLE みたいな「暗記ゲーじゃないテスト」で前世代を大きく上回った、“考える力寄り”に振った汎用モデル。
同じモデル上の Deep Think モードを組み合わせると、数学・コーディング・科学・研究系の「正解が1つじゃない難問」に対しても、“本気の相談相手”として使える。
日常のタスクは 3.1 Pro、本気の設計・要件定義・研究仮説出しみたいな重めの意思決定前だけ Deep Think、という役割分担がコスパと生産性のバランス的にちょうどいい。

-2. チェックリスト：Gemini 3.1 Pro 時代の“やること／やらなくていいこと”

Step 1：環境準備（今日〜明日）

[ ] Google AI Studio でアカウントを作り、Gemini 3.1 Pro プレビューを1回叩いてみた
[ ] 通常モードと Deep Think相当（thinking_level=high）のレスポンスの違いを、自分のプロンプトで比べてみた
[ ] 自分のPC or 会社アカウントで、どの入り口（AI Studio / CLI / Vertex AI / NotebookLM など）が現実的か確認した

Step 2：タスク棚卸し（今週）

[ ] 「時間かかる割に複雑じゃない」タスクを洗い出す（議事録要約、軽いバグ調査など）
[ ] 「グレーゾーンだらけで毎回頭を抱える」タスクを書き出す（要件整理、影響範囲調査など）
[ ] 「正解が1つじゃない」タスクを挙げる（新規事業アイデア出し、研究仮説出しなど）

→ 上2つは 3.1 Pro担当、一番下は Deep Think候補だと考えると整理しやすいです。

Step 3：ミニ実験（来週）

[ ] 上のタスクから1つだけ選ぶ
[ ] 3.1 Pro 通常モードと Deep Think の両方に投げて、結果とレスポンス時間をメモした
[ ] 「人間だけでやった場合」と「AI＋人間レビュー」の工数をざっくり比較した
[ ] そのタスクについて「今後どこまで3.1 Proに任せるか」を自分なりにメモした

Step 4：チームの“Deep Thinkルール”を決める（余裕があれば）

[ ] 「3.1 Proだけで回すタスク」と「Deep Thinkを解禁するタスク」をGoogleドキュメント1枚にまとめた
[ ] リーダー/情シスと「Deep Thinkを使うときの目安（重要度・工数・料金）」を共有した
[ ] 月末に「Deep Thinkをどれぐらい使ったか／どこで効いたか」を30分だけ振り返る時間を置いた

-3. 沼にハマりたい人向け：次に追うと楽になる3テーマ

[ ] RAG構成の基本と、Gemini系モデルで組むときの注意点
[ ] プロンプト設計の落とし穴：日本語環境ならではのクセ
[ ] 複数モデルを使い分ける開発フローの作り方

この3つが固まってくると、

「また新モデル出たけど、とりあえずこの3観点でだけチェックしとくか」

という自分なりのマイルールができて、
情報ラッシュにそこまで疲れなくなります。

ブラウザを閉じる前に、1つだけやってみてほしいこと

ここまで読んでくれたので、せっかくなら行動1つだけ起こして終わりましょう。

AI Studio を開く
Gemini 3.1 Pro を選ぶ
「今あなたが一番めんどくさいと思っているタスク」を、そのまま投げる

プロンプトは雑でいいです。

「この案件の仕様整理がつらい」
「このコードのどこが臭いか教えて」

くらいでOK。

返ってきた答えを見て、

「お、これは普通に使えるな」
「ここはまだ弱いな」
「Deep Thinkならもう1段行けそう」

このどれか1つでも感じられたら、
それがもう“Gemini 3.1 Pro 時代への初動”になっているはずです。

参考記事: 「Gemini 3.1 Pro」が登場--推論性能が前バージョンの2倍以上に向上