エンジニア向け:常駐AI(24時間エージェント)入門|Webhook×LLMで“待機して働くAI”を作る設計のコツ

eyecatch AI関連

結論(忙しい方向け)
- 常駐AIはWebhook+LLM+ワークフロー+外部メモリの組合せで実現。動かし方(起動トリガー)が肝。
- まずは問い合わせ一次整理や朝の情報ブリーフ等、限定的なルーティンから小さく試す。
- 設計は「どこまでAIに判断させるか」「承認・権限・ログ」を明確にし、段階的に拡張する。

想定読者: エンジニア / 開発リーダー / 情シス

「朝Slackを開いたら、AIがもうIssueを整理し終わってる」
「夜のうちに問い合わせメールが分類されていて、朝は確認だけ」

そんな“待機して働くAI”が、いよいよ現実的になってきました。
Anthropicの24時間起動エージェント「Conway」の目撃談をきっかけに、チャットで会話するAIから「イベントが来たら勝手に動く常駐AI」へ、関心が移りつつあります。

この記事では、Conwayそのものの真偽に振り回されるのではなく、その裏にある「常駐型AIエージェント」という概念を、実務レベルでどう活かすかを整理します。

この記事を読むと、次のようなことが分かります。

  • 常駐型AIエージェントがチャットAIや自動化ツールと何が違うかが整理できる
  • n8n・Zapierといったワークフロー自動化とどう組み合わせると強いかが分かる
  • 日本の開発現場で「まずどこから任せるとコスパがいいか」の具体例がイメージできる
  • 週末で試せるミニ実装例(Webhook+LLM)と、導入時のリスクと対策が分かる

関連:企業で安全にClaude Codeを導入する実践ガイドClaude Code 2.1.94の重要変更まとめClaude×Wordで資料作成をラクにする実践ガイド

「AIにうまく質問する」時代から、
「AIが待機していて、イベントが来たら先に動く枠組みを設計する」時代へ。
その入り口を、現場エンジニア目線でまとめていきます。


  1. 【2026年注目】“待機して働くAI”は何がすごい?エンジニアが今知るべき5つの変化
    1. -1. 読者の悩み: AIサービスが増えすぎて、どれを追えばいいか迷子になる問題
    2. -2. いま重要なのは“頭の良さ”だけじゃない: 放置しても仕事が進むか?
    3. -3. この記事でわかること: 3分理解・比較・実装イメージまで一気に整理
  2. そもそも“常駐型AIエージェント”とは?チャットAIとの違いを1分で理解する
    1. -1. 対話型AI vs 常駐型AI: “聞かれて答える”から“起きて処理する”へ
    2. -2. Webhookや通知連携が意味するもの: AIが業務システムの中に入ってくる
    3. -3. 誤解しやすいポイント: “なんでも勝手にやるAI”ではなく“設計された範囲で働くAI”
  3. なぜ今このテーマが熱い?日本の開発現場に刺さる3つの理由
    1. -1. 理由1: 日本の現場は“人がやらなくていい細かい作業”がまだ多い
    2. -2. 理由2: 夜間・休日の一次対応ニーズと“24時間AI”の相性が良い
    3. -3. 理由3: 属人化した知識をAIワークフローに落とし込める可能性がある
  4. 自動化ツールと何が違う?n8n・Zapier・AIエージェントを4軸で比較
    1. -1. 比較表: 自動化ツールとAIエージェントの違いを4つの視点で整理
    2. -2. ルールベース自動化が得意な仕事、AI判断が効く仕事
    3. -3. 結論: いちばん強いのは“ワークフロー + AI判断”のハイブリッド
  5. 関連ツールを混同しないために: 計画・記憶・相談・実行の役割分担を整理する
    1. -1. 計画レイヤー: 非同期で考えさせる仕組みはなぜ重要か?
    2. -2. 相談レイヤー: 迷ったときだけ高性能モデルに聞く発想
    3. -3. 記憶レイヤー: AIの“その場しのぎ問題”を外部メモリで補う
    4. -4. 実行レイヤー: 生成AIの価値は“答えること”より“動けること”にある
    5. 小まとめ:1つの“魔法のエージェント”を探すより、役割で分けて考えよう
  6. エンジニア実務で使える7例: “地味だけど効く”常駐型AIの活用パターン
    1. -1. GitHub Issueを自動で要約・分類・担当候補出し
    2. -2. Slack・メール・予定表を横断した“朝5分で読める日次ブリーフ”作成
    3. -3. 障害発生時の一次切り分けとRunbook案内
    4. -4. PRレビュー前の差分チェックと“怪しい変更点”の洗い出し
    5. -5. 顧客問い合わせの一次分類と返信ドラフト生成
    6. -6. 個人開発で止まりがちなタスクを“夜のうちに前進”させる
    7. -7. 日報や振り返りを貯めて“改善提案を返すAI”に育てる
  7. Before/Afterで見る: 常駐型AIを入れると業務はどこまで変わる?
    1. -1. ケース1: 毎日30分の確認作業が5〜10分のレビュー作業に変わる
    2. -2. ケース2: “あの人しか分からない”運用が、最低限の共有知に変わる
    3. -3. ケース3: チームの反応速度は上がるが、承認設計がないと逆に危ない
  8. まずは最小構成でOK: 週末に試せる“常駐AIワークフロー”6つの部品
    1. -1. 部品1〜6を図で理解: Trigger / Brain / Memory / Tool / Approval / Audit
    2. -2. おすすめ構成例: Slack + GitHub + n8n + LLM API + Notion/DB
    3. -3. “24時間稼働”でも常時フルパワーは不要: イベント駆動で十分
  9. コードで雰囲気をつかむ: Webhookで動くAIエージェントの超シンプル実装例
    1. -1. サンプル1: Issue作成をきっかけに、要約とラベル付けを自動化する
    2. -2. サンプル2: 危険な処理は自動実行せず、Slack承認に回す
    3. -3. 実装で先に決めるべきこと: プロンプトより権限境界
  10. 便利そうで怖い…を放置しない: 導入前に知るべき4大リスクと対策
    1. -1. リスク1: 間違いが“自動で拡散”される
    2. -2. リスク2: AIに見せる情報が増えるほど、漏えいリスクも増える
    3. -3. リスク3: “少額のはず”が積み上がる利用コスト
    4. -4. リスク4: 誰の判断なのか曖昧になる責任問題
  11. 今週やるならこれ: エンジニア向け“失敗しにくい導入3ステップ”
    1. -1. ステップ1: まずは“毎日発生する面倒ごと”を1つだけ選ぶ
    2. -2. ステップ2: 最初の1〜2週間は“読む専用AI”として使う
    3. -3. ステップ3: 精度が見えてから、承認付きで一部自動化する
  12. FAQ: 自作できる?日本語業務で使える?企業導入の壁は?
    1. Q1. Conwayみたいな“24時間エージェント”って、自作できる?完成品を待つべき?
    2. Q2. 既存のワークフロー自動化だけじゃ足りないの?
    3. Q3. 日本語の社内業務や顧客対応でも実用になる?
    4. Q4. 企業導入で最大の壁は技術?それとも運用?
    5. Q5. 個人でも試す価値ある?会社の環境じゃなくても意味ある?
  13. まとめ: “AIに聞く”から“AIが待っていて動く”へ、次の主戦場は設計力かもしれない
    1. -1. 30秒でおさらい: 今日のポイントはこの5つ
    2. -2. 次の一歩: あなたの業務で“通知が来たら自動で見てほしいこと”を書き出そう
  14. 関連記事

【2026年注目】“待機して働くAI”は何がすごい?エンジニアが今知るべき5つの変化

「気づいたら夜のあいだにタスクが進んでいる」「Slackを開いたら、AIがもうIssueを整理し終わってる」——
そんな世界が、いよいよ“現実的な選択肢”になりつつあります。

きっかけの1つが、Xで話題になったこのポストです。
すぐるさんの投稿: https://x.com/SuguruKun_ai/status/2041253651671592985

ついに!!Anthropicが24時間起動する
AIエージェント「Conway」を秘密裏にテストしていたことが判明。

これまでのClaude → ユーザーが聞いたら答える(チャット)
Conway → 24時間バックグラウンドで動き続ける自律エージェント

※元情報は、海外アカウントの動画ポストなどに基づく「テスト目撃談」で、Anthropic公式が正式リリースをアナウンスしたわけではありません。この時点では「未確認の実験情報」として扱うのが安全です。

とはいえ、「24時間バックグラウンドで動き続けるAIエージェント」というコンセプト自体は、Conwayが本物かどうかに関係なく、確実にトレンドになりつつあります。
そして、この流れはエンジニアの仕事の仕方をかなり変えそうです。

ここでは導入として、

  • 読者の悩み
  • いま何が変わりつつあるのか
  • この先の記事で何が分かるのか

をざっくり押さえておきます。


-1. 読者の悩み: AIサービスが増えすぎて、どれを追えばいいか迷子になる問題

2024〜2026年くらいで、AIまわりの単語が一気に増えました。

  • ChatGPT、Claude みたいな チャット型AI
  • GitHub Copilot、Claude Code みたいな コーディング支援
  • Zapier、n8n、Make みたいな ワークフロー自動化
  • Dify、NotebookLM、各社の AIエージェントプラットフォーム
  • さらに最近だと、
  • 「常駐エージェント」
  • 「外付けのAI脳(Exbrain)」
    (例: https://x.com/masahirochaen/status/2041876998252093708)
  • モデル側には「advisorツール」「/ultraplan」みたいな“計画専用モード”

フルタイムで追っていても「全部理解して使い分ける」はかなり厳しいです。

現場エンジニアからよく聞くのは、

  • 「チャットAIと“エージェント”って何が違うの?」
  • 「Zapierやn8nがあれば十分じゃないの?」
  • 「Xでバズってるエージェント、どこまでがガチでどこからが夢物語?」

という“概念レベルのモヤモヤ”。

モデル名は覚えられても、

実務でどこに効くのか?
どこから手を出せばコスパがいいのか?

がぼんやりしていると、「明日も結局、手でチケット整理してる」状態から抜け出せません。


-2. いま重要なのは“頭の良さ”だけじゃない: 放置しても仕事が進むか?

少し前までの盛り上がりポイントは、だいたいこんな感じでした。

  • 「GPT-◯が出た!ベンチマークで○○を超えた!」
  • 「このモデルは数学が強い / コードが強い」
  • 「○○試験で人間越え」

つまり “1回の対話でどれだけ賢く答えられるか” が主戦場。

でも、Conwayっぽい話題や、
n8nのAI Agent機能、
Claudeの「advisorツール」やClaude Codeの「/ultraplan」あたりを見ていると、
注目ポイントが少しシフトしてきています。

今、熱いのは例えばこんな能力です。

  1. 非同期で動ける
  2. 「すぐ答える」ではなく、裏で数分〜数十分かけて計画・調査してから結果を返せる
  3. イベントをきっかけに起きる
  4. Webhookやスケジューラで「何か起きたときだけ起動」できる
  5. タスクをまたいで“継続して”働ける
  6. 朝のメール整理 → 昼のIssue要約 → 夜のレポート草案のように、1日の中で何度も呼ばれても、前のコンテキストを(外部メモリを使って)参照できる

ざっくり言うと、

ベンチマークで頭の良さを競うAI
→ 「動き方・働かせ方」で差がつくAI

へと、主戦場が移りつつある感覚です。

人間で言うと、

  • めちゃくちゃ頭はいいけど、呼ばないと机から動かない人
  • 多少ポンコツでも、自分からカレンダーを見てTODOを消化してくれる人

現場でありがたいのは、だいたい後者です。
常駐型エージェントが目指しているのは、この「自分から動いてくれるタイプ」の働き方です。


-3. この記事でわかること: 3分理解・比較・実装イメージまで一気に整理

この記事全体では、XのConwayネタを入り口に、

  • 「常時稼働するAIエージェントって結局何が新しいの?」
  • 「Zapierやn8nとどう違って、どう組み合わせるの?」
  • 「日本の普通の開発現場で、どこから試すのが現実的?」

という疑問を、次の3レイヤーに分けて整理していきます。

  1. Xでの主張・論点(噂/トレンドレベル)
  2. Conwayのような「24時間バックグラウンドで動くAIエージェント」構想
  3. 「外付けのAI脳」「常駐エージェント」「advisorツール」など、似たコンセプトが一気に増えている状況

  4. 事実として確認できる範囲

  5. 既に実用レベルで使える仕組み
    (例: n8nのAI Agent機能、Webhook + LLM連携、StripeのWebhookのようなイベント駆動設計)
  6. 日本企業でのAIエージェント導入事例や、日本特有の壁
    (Excel文化など。参考: LayerX「Ai Workforce」の記事など)

  7. 実務への落とし込み(エンジニアがやること)

  8. 「24時間フル稼働の謎AI」をいきなり目指すのではなく、
    • Webhook
    • 簡単なワークフロー(n8nなど)
    • LLM API
    • 外部メモリ(Notion / DB など)
      の4点セットで “必要なときだけ起動する常駐風エージェント” を組む
  9. そのときの勘所:
    • どのイベントをトリガーにするか
    • どの部分をAIの「判断」に任せるか
    • 権限・承認・ログをどう設計するか

読み終わるころには、

  • 「Conwayみたいな“24時間エージェント”って、要は Webhook + LLM + ワークフロー の延長なんだな」
  • 「うちの現場なら、“問い合わせメールの一次整理”と“朝の情報ブリーフ”あたりから試せそうだな」
  • 「AIモデルのスペックを追うだけじゃなくて、どんなイベントで起こして、どこまで任せて、どこで人間が止めるかを設計するのが仕事になっていきそうだな」

といったイメージが持てるはずです。

「AIにうまく質問する」スキルから、「AIが勝手に動く枠組みを設計する」スキルへのシフト
これが、これから数年の大きな変化になりそうです。


そもそも“常駐型AIエージェント”とは?チャットAIとの違いを1分で理解する

まずは、Xでバズっていたこの投稿から。

  • すぐるさんのポスト(本記事の主参照):
    https://x.com/SuguruKun_ai/status/2041253651671592985

これまでのClaude → ユーザーが聞いたら答える(チャット)
Conway → 24時間バックグラウンドで動き続ける自律エージェント

「Conway」はAnthropic公式ドキュメントがあるわけではなく、
テスト画面の動画などを見た人の「観測レポート」に近い情報です。

なので、“24時間バックグラウンドで動き続けるエージェント構想”はトレンドとして本物だけど、Conwayそのものはまだ未確認情報、くらいの温度で見るのが健全です。

とはいえ、概念としての「常駐型AIエージェント」は、すでに他ツールでかなり再現できます。
ここでは、チャットAIとの違いを“ざっくり1分”で腹落ちさせましょう。


-1. 対話型AI vs 常駐型AI: “聞かれて答える”から“起きて処理する”へ

ざっくり2行で言うと、

  • 対話型AI
    → 「人間が話しかけたときだけ返事する、賢いチャットボット」
  • 常駐型AIエージェント
    → 「人間がいなくても、イベントが起きたら勝手に仕事を始める“当番担当”」

利用シーンで比べると:

対話型AI(ChatGPT / Claude など)

  • 典型的な使い方
  • 「このエラー読んで原因教えて」
  • 「仕様書を要約して」
  • 「この関数をリファクタして」
  • 特徴
  • ユーザー入力を受けて、その場で1回だけ推論して返す
  • 「その場の会話」には強いが、「1日を通して動き続ける」前提ではない
  • 状態は基本“毎回リセット”(長期記憶は外部設計次第)

常駐型AIエージェント(Conway的なもの / n8n AI Agentなど)

  • 典型的な使い方
  • 「新しいGitHub Issueが立ったら、要約+優先度+担当候補を出しておいて」
  • 「毎朝9時にSlackとカレンダーとメールを読んで“今日の重要トピック”まとめて」
  • 「問い合わせフォームに投稿が来たら、AIで分類して担当部署に振り分けて」
  • 特徴
  • 「トリガー(イベント)」を起点に、自動で仕事を始める
  • 24時間“待機”していて、必要なときだけ目を覚ますイメージ
  • 同種の処理を日単位・週単位で繰り返し実行する前提

人間で言えば、

  • チャットAI = 「質問すると超詳しく教えてくれる詳しい先輩」
  • 常駐エージェント = 「毎朝ちゃんと出社して、ルーティン業務を淡々とこなす事務担当」

どちらも重要ですが、「AIに仕事を任せる」観点だと後者のインパクトがかなり大きいです。


-2. Webhookや通知連携が意味するもの: AIが業務システムの中に入ってくる

常駐エージェントのキモは、「人間の入力」ではなく「システムのイベント」を起点に動くことです。

Conway周辺の噂でも、

  • 「Webhookで外部イベントから自動起動」

というキーワードが出てきます。ここがかなり重要です。

Webhookは、Stripeのドキュメントを見るとイメージしやすいです:

  • Stripe公式「Webhook エンドポイントで Stripe イベントを受信する」
    https://docs.stripe.com/webhooks?locale=ja-JP

Stripeだと、

  • 「支払いが成功した」
  • 「請求書が発行された」
  • 「サブスクリプションが更新された」

といったイベントが起きた瞬間に、指定したURL(Webhookエンドポイント)へHTTP POSTを飛ばす仕組みです。

そのハンドラはだいたいこんな感じです(イメージ):

@app.post("/webhook")
def handle_webhook(request):
    event = json.loads(request.body)
    if event["type"] == "payment_intent.succeeded":
        # 支払い成功時の処理
        ...
    return "ok"

これを LLM+ワークフローに置き換える と、常駐エージェントになります。

例:GitHub Issue用の常駐エージェント

  1. GitHubでIssueが作成される
  2. GitHubのWebhookがIssue情報を自前の/github-issuesにPOST
  3. 受け取ったサーバー or n8nで
  4. Issue本文をLLMに投げて要約
  5. タイトルや内容から優先度を分類
  6. 過去の担当者履歴DBを引いて担当候補を提案
  7. 結果をSlackに投稿 / GitHubにラベル追加

この流れ、人間は一度もChat UIを開いていませんが、

  • Issueには自動でラベルが付き
  • Slackには要約と「誰が見たほうが良さそうか」が流れ
  • 朝イチで見るべきものが一目で分かる

という状態になります。

AIが「Slackやブラウザの向こう側」にいる相談役
→ 「業務システムの一部として埋め込まれた担当者」

に変わってくるわけです。

Stripe的な「イベント駆動設計」は既に実績がある世界観なので、
「Conwayすごい」ではなく「Webhook的な設計 × LLMは相性が良い」と理解すると、かなり地に足がつきます。


-3. 誤解しやすいポイント: “なんでも勝手にやるAI”ではなく“設計された範囲で働くAI”

一番ありがちな誤解は、

「24時間動き続ける自律エージェント」
= 何でも勝手に判断して会社を回す魔法のAI

というイメージです。

技術的に現実的なのはむしろ逆で、

  • トリガー
  • どのイベントで起こすか(Webhook / スケジューラ / 手動ボタン)
  • 責務の範囲
  • どんな処理を任せるか(要約 / ラベリング /草稿作成 / 軽い実行など)
  • 権限
  • 読み取り専用か、DB更新まで許すか、メール送信していいか
  • 承認フロー
  • どこで人間の最終チェックを必須にするか(Slack承認など)
  • ログと監査
  • 何をしたか、どのプロンプトと返答で、誰が承認したか

人間が先に決めた“枠”の中でだけ自律的に動かす という設計です。

n8nのAI Agent機能などもまさにそうで、

  • どのツール(API)を使っていいか
  • どのナレッジベースを読んでいいか
  • どこでHuman-in-the-Loopを挟むか

を全部宣言して、その“レールの上だけ”自律的に動く、という思想になっています。

なので「常駐エージェント」と聞いたときの正しい変換は、

  • ✕:会社を完全自動で回す全能AI
  • ○:Webhook/スケジューラで起きて、
    LLMで“判断が必要な部分だけ”面倒を見てくれて、
    それ以外はルールベース or 人間に渡す “よくできたスクリプト+AIのハイブリッド”

くらいの温度感です。

Xでの熱量はそのまま楽しみつつ、エンジニアとしては

「つまりWebhookとワークフローとLLMをこう組む感じだよね」

と、実装イメージに翻訳して眺めておくのがちょうどいいバランスかなと。

そもそも“常駐型AIエージェント”とは?チャットAIとの違いを1分で理解する


なぜ今このテーマが熱い?日本の開発現場に刺さる3つの理由

「24時間バックグラウンドで動くAIエージェント」と聞くと、
なんとなくシリコンバレーの未来ガジェット感がありますよね。

でも冷静に現場を見ていくと、日本こそ常駐型AIエージェントと相性がいい説はかなりあります。
Conwayの話題(参考: https://x.com/SuguruKun_ai/status/2041253651671592985)を眺めつつ、日本の開発・情シスの肌感覚に合わせて理由を3つに絞ってみます。


-1. 理由1: 日本の現場は“人がやらなくていい細かい作業”がまだ多い

まず単純に、手作業の余白が多すぎる問題です。

  • 朝イチルーティン
  • Slackやメールの未読をザーッと眺めて
  • 重要そうなものにスターを付けて
  • 「今日これを対応」と頭の中で段取り
  • 日中に発生する“雑だけど重い”タスク
  • GitHub Issueの初期ラベリング・担当決め
  • 監視アラートの「様子見 / 即対応 / 後回し」振り分け
  • お問い合わせメールのカテゴリ分け・緊急度判断
  • 1日の終わりに積み残る“記録系”仕事
  • 日報・議事メモ・作業ログの整理
  • チャットから「決まったこと」だけ拾ってNotionに転記
  • 顧客からのフィードバックをスプレッドシートに写経

どれも、「完全自動化は怖いけど、一次フィルタくらいはAIに任せたい」領域です。

Forward Deployed Engineerの話題でも、日本の現場では「UIがExcelのまま」のシステムが多く、
そこにAIエージェントを入れようとすると、FDEが業務フローを1つずつ“エージェント向け”に作り替えている、という話が紹介されています。

ここでポイントなのは、

  • 最初から「完全自律AI」を目指しているわけではなく
  • “人がやらなくていい細かい前処理”をエージェントに落としている

ということ。

常駐型AIエージェントが得意なのはまさにここで、

  • 「イベントが起きたタイミング」で
  • 「定型だけど、ちょっと判断の余地がある作業」を
  • 「人が触る前に8割くらいまで片づける」

という役割を担えます。
この「最初の8割を持っていく役」だけでも、日本の現場ではかなりインパクトが大きいです。


-2. 理由2: 夜間・休日の一次対応ニーズと“24時間AI”の相性が良い

2つ目は、時間的制約との相性です。

  • 海外との時差がある拠点とのやり取り
  • 監視アラートは24時間飛んでくる
  • でも夜間や休日に「ちゃんと見る人」は限られている

あるあるだと思います。

よくある運用:

  • 監視ツール(Datadog, CloudWatchなど)がアラートを飛ばす
  • それがSlackの #alerts チャンネルに流れる
  • オンコール担当が休日にスマホで見て、
  • 「よくあるノイズだから無視」
  • 「Runbook○ページ目の手順を実行」
  • 「SREにエスカレーション」
    を脳内で判断する

この「通知を見て判断するだけ」の層を、常駐型AIに一次対応させるのは現実的です。

  • アラートが来る
  • Webhook → n8n or 自前サーバーで受信
  • AIが
  • 過去の似たアラートログやRunbookを参照して
  • 「既知のノイズ / 要調査」などに分類
  • 関連ログをサマリしてSlackに送る
  • 人間はAIの要約+判断案を見て「最終OK/NG」だけ押す

ここでの重要ポイントは、AIに「勝手に本番操作させない」ことです。
外形的な判断とRunbook候補提示までなら、かなり安心して任せられます。

問い合わせフォームでも同様で、

  • 夜間に来た問い合わせを
  • カテゴリ
  • 緊急度(高 / 中 / 低)
  • 担当部署
    に分けておく
  • 朝には担当部署ごとに整理済み一覧が届いている

だけでも、「朝の1時間が溶けるやつ」が「5〜10分のレビュー」に変わります。


-3. 理由3: 属人化した知識をAIワークフローに落とし込める可能性がある

3つ目は、属人化との相性です。

  • あの運用はAさんしか分からない
  • このお客さんのクセはBさんだけが知っている
  • 特定システムの障害対応はCさんがいないと詰む

こういう「ベテランの頭の中だけにある運用知識」をどうにかしたくて、
マニュアルやWikiを作ってもメンテされない問題、ありますよね。

ここを「AIエージェント用ワークフロー」として落とし込むアプローチが、少しずつ現実味を帯びています。

  • ベテランにヒアリングして、
  • どのイベントが起きたら
  • まず何を見て
  • どう判断して
  • どこへエスカレするか
    を洗い出す
  • それをワークフロー化(n8n / 自前スクリプトなど)
  • “感覚”が必要な部分だけ LLMに任せる
  • 「このログ、既知パターンに近いか?」
  • 「このお客さんの温度感は?」
  • 「謝罪が必要レベルか、情報提供レベルか?」

すると、

  • ルールで書けるところはルールに
  • 書ききれない“ニュアンス”だけAIに投げる

という“ハイブリッド運用知識”になります。

「外付けのAI脳(Exbrain)」のように、

  • カレンダー / Slack / Gmail を毎日読み
  • 日報や行動パターンをAI視点で整理し
  • 後から自分やチームが見返せるようにする

という形で「経験」を外付けメモリに蓄積する発想も出てきています。

これを一歩進めて、

  • 日報・問い合わせログ・障害対応記録などを
  • エージェントのナレッジベースとして継続的に食わせる

と、

  • 新人が「AIエージェントに聞く」ことで運用ノウハウにアクセスできる
  • ベテランが異動/退職しても、「思考の一部」が残る

という世界が、そこまで大げさな投資なしに見えてきます。

もちろん「AIがベテランの完全な代わりになる」わけではありませんが、

ベテランの頭の中にある「判断の観点」を
プロンプトやルールに落として、
“24時間待機AI”に持たせる

という方向性は、かなり実務的な落としどころだと思います。

なぜ今このテーマが熱い?日本の開発現場に刺さる3つの理由


自動化ツールと何が違う?n8n・Zapier・AIエージェントを4軸で比較

Conwayのポスト(https://x.com/SuguruKun_ai/status/2041253651671592985)がバズったとき、
タイムラインでよく見た感想がこれです。

「え、それってZapierとかn8nで良くない?」

この違和感はかなり正しくて、常駐型AIエージェントの“新しさ”は既存の自動化ツールの延長線上にあると言えます。

ここでは、

  • トリガー(何をきっかけに動くか)
  • 判断の柔軟性
  • 外部知識・記憶の扱い
  • 失敗したときの扱い

の4軸で、自動化ワークフロー常駐AIエージェントを比較します。


-1. 比較表: 自動化ツールとAIエージェントの違いを4つの視点で整理

「AIエージェント」と言いつつ、やっていることを分解するとこうなります。

観点 従来のワークフロー自動化(Zapier / n8n単体など) 常駐型AIエージェント(Conway的なもの+LLM)
1. トリガー Webhook / スケジューラ / ボタン押下など。イベント駆動 基本同じ。ただし「連続タスク」「長時間思考」を前提に設計されやすい
2. 判断の柔軟性 if / switch / ルールに従う。条件分岐は人間が書いたロジックのみ フリーテキストやログを解釈して、“次の一手”をLLMが決める
3. 外部知識・記憶 「今届いたデータ」+明示的に書いたDBクエリのみ ナレッジベースや過去ログ、外部ツールを、プロンプト1つで柔軟に参照
4. 失敗時の扱い エラーならストップ or 再試行。挙動は読みやすい LLMの“勘違い”が混ざるので、承認や監査ログ設計がほぼ必須

つまり、

  • 起動の仕組み自体は変わっていない(どちらもWebhook・スケジューラが主役)
  • 違いは「分岐の仕方」「外部知識の使い方」「失敗時の扱い」

に出ます。


-2. ルールベース自動化が得意な仕事、AI判断が効く仕事

ここを混ぜると「ぜんぶエージェント化して爆死」しがちです。

ルールベース自動化が得意な仕事

特徴:

  • 入力形式がほぼ決まっている
  • 判断ルールがif文で書ける
  • 例外ケースが少ない or 許容できる

例:

  • 請求書PDF → ストレージ&記録
  • フォーム入力 → CRM登録
  • 「エラー発生」→ Slack通知

これは人間の判断をほとんど挟まないタスクなので、
LLMを入れてもメリットが薄く、コストと不確実性だけ増えがちです。

AI判断が効く仕事(常駐エージェント向き)

特徴:

  • 入力がフリーテキスト(メール文、ログ、議事録など)
  • 「ざっくり」でいいから優先度やカテゴリを判定したい
  • 100%正解より「妥当な案」を高速に出してほしい

例:

  • 問い合わせメールの一次分類
  • GitHub Issueの自動タグ付け+担当候補出し
  • 監視アラートの“ノイズ vs ガチ”判定

ここは、ルールで書こうとすると泥沼だが、人間なら3秒で判断できるゾーンです。

  • Zapier / n8n:
    → 「決め打ちのレールを正確になぞる係」
  • 常駐AIエージェント:
    → 「レールに乗せる前の“読んで整理する係”」

という棲み分けがきれいにハマります。


-3. 結論: いちばん強いのは“ワークフロー + AI判断”のハイブリッド

結論はシンプルで、

「Conway vs n8n / Zapier」の二択ではなく、
「ワークフロー自動化 × AIエージェントのハイブリッド」が最適解

です。

例:問い合わせメール対応フロー(ハイブリッド版)

  1. トリガー(ワークフロー)
  2. Gmailで特定アドレスにメールが届く → n8n / Zapierトリガー
  3. 前処理(ワークフロー)
  4. 差出人・件名・本文をパース
  5. 添付をストレージに保存
  6. AI判断(エージェント)
  7. LLMでカテゴリ・緊急度・返信ドラフトを生成
  8. FAQをRAGで検索し、類似Q&Aを添付
  9. 実行(ワークフロー)
  10. カテゴリに応じてSlackの通知先・CSツールの担当を振り分け
  11. 返信ドラフトを「下書き」として登録
  12. Human-in-the-loop
  13. 担当者がドラフトを確認して送信
  14. ログ・学習
  15. 最終送信文とドラフトの差分をログ化し、後でプロンプト改善

こうすると、

  • ワークフロー自動化=「線路を引く」
  • AIエージェント=「線路に乗せる前の整理と判断」

に分担できて、両者の良いとこ取りができます。


関連ツールを混同しないために: 計画・記憶・相談・実行の役割分担を整理する

Conway的な「24時間エージェント」がXでバズる一方で、タイムラインには

  • Claude Code の /ultraplan(非同期の計画モード)
    https://x.com/masahirochaen/status/2042943413654556688
  • Claude Messages API の「advisorツール」(上位モデルへの相談)
    https://x.com/claudeai/status/2042308625989882054
  • 「外付けのAI脳(Exbrain)」的な常駐エージェント
    https://x.com/masahirochaen/status/2041876998252093708

など、“似ているようで役割が違う”ツールが大量に流れてきます。

ここを全部「AIエージェント」でひとくくりにすると頭がパンクするので、
「どのレイヤーで何を任せるか」で分けてみます。

ざっくり4レイヤーです。

  1. 計画レイヤー(Plan)
  2. 相談レイヤー(Advise / Escalate)
  3. 記憶レイヤー(Memory)
  4. 実行レイヤー(Act / Tool)

Conway的な「24時間エージェント」は、この4つを1つの“人格”にまとめて見せている存在と見るとスッキリします。


-1. 計画レイヤー: 非同期で考えさせる仕組みはなぜ重要か?

最近増えているのが、「考えるだけ担当」、つまりPlan専用AIです。

  • Claude Code の /ultraplan
    → コード修正や新機能追加前に、「やることリスト」「設計案」だけ先に出す
  • Conway的な構想でも、「バックグラウンドでタスクを進め続ける」= 長く考える枠が重要

ポイントは、

  • いきなり「実行」させない
  • まず「分解」「段取り」「影響範囲の整理」だけさせる

ことで、

  • レビューしやすい
  • 間違っても被害が小さい
  • 手戻りが減る

といったメリットが出ることです。


-2. 相談レイヤー: 迷ったときだけ高性能モデルに聞く発想

次は “難しい場面だけ師匠AIに相談する”レイヤーです。

  • Anthropic の advisorツール
    https://x.com/claudeai/status/2042308625989882054

Sonnet / Haiku が途中で難しい判断にぶつかったら、
その部分だけ Opus に相談して計画をもらい、再開する

という設計。

  • ベースは安い・軽いモデル
  • 「自信がない」「難しい」時だけ相談フラグを立てる
  • 師匠モデルに聞いた結果をもとに、また軽量モデルが続ける

常駐エージェントを作るとき、「全部上位モデルで回す → コスト爆死」はよくある話なので、
相談レイヤーを分離してモデルを使い分けるのが現実的です。


-3. 記憶レイヤー: AIの“その場しのぎ問題”を外部メモリで補う

3つ目は Memory(記憶)レイヤーです。

LLM単体だと、

  • 会話ごとにコンテキストはリセットされがち
  • 入れられるトークン数に限界
  • 「一週間前に何を決めたか」を覚えておくのが苦手

ここを埋めるのが、

  • Exbrain 的な「外付けAI脳」(カレンダー / Slack / Gmail のログを“毎日読む係”)
  • NotebookLM / Dify / RAGベースのナレッジシステム
  • ログDB・Notion・スプレッドシートなどの永続ストレージ

の役割です。

LLM = いま目の前の情報を元に考える“脳”
記憶レイヤー = 過去の出来事や決定を保存する“外付けHDD”

という分担。
Conway的な常駐エージェントも、「24時間ずっと考えている」のではなく、
24時間、記録と参照を続けられる窓口を持っていると見るのが現実的です。


-4. 実行レイヤー: 生成AIの価値は“答えること”より“動けること”にある

最後は一番分かりやすい Action / Toolレイヤー

  • n8n / Zapier / Make の各種ノード(Gmail / Slack / GitHub APIなど)
  • MCP(Model Context Protocol)のツール呼び出し
  • Stripe / GitHub / Jira / Slack / 自社API へのHTTPリクエスト

など、「手足」部分です。

注意点は1つ。

「AIが賢いから、実行権限も全部渡してOKでしょ?」

という気持ちをぐっとこらえることです。

  • AIが触っていい範囲(読み取り専用?一部書き込み?削除はNG?)
  • どのアクションは必ず人間の承認を挟むか
  • 失敗時のロールバック・停止条件

ここを先に決めてから、「何を自動で実行するか」を考えるほうが安全です。


小まとめ:1つの“魔法のエージェント”を探すより、役割で分けて考えよう

ざっくり整理すると、

  • Plan:いきなり動かさず、まず考えさせる枠(/ultraplanなど)
  • Advise:軽量モデルが迷ったときだけ師匠に聞く枠(advisorツール)
  • Memory:過去のログや決定事項を保存する枠(RAG・外付け脳)
  • Act / Tool:実際に通知・更新・起票する枠(Webhook連携・API)

Conway的な「24時間バックグラウンドで動く自律エージェント」は、
この4つをうまく組み合わせた“ワークフロー+AI”のパッケージに過ぎません。

「万能エージェント1個で全部」は一旦忘れて、
「Plan / Advise / Memory / Act のどこを、どのツールで置き換えるか?」

という設計問題に分解したほうが、現場では格段にうまくいきます。


エンジニア実務で使える7例: “地味だけど効く”常駐型AIの活用パターン

ここからが実務編です。
Conway(参考: https://x.com/SuguruKun_ai/status/2041253651671592985)の

「24時間バックグラウンドで動き続ける自律エージェント」

というキャッチーなフレーズを、地味な現場タスクに落としていきます。

どれも、

  • Conway的な“24時間エージェント”構想
  • すでにある技術(Webhook / n8n / LLM API 等)

の組み合わせで、今日からでも再現できるものに絞っています。


-1. GitHub Issueを自動で要約・分類・担当候補出し

できること

  • Issue作成をWebhookで受ける
  • LLMで
  • 要約
  • カテゴリ(bug / feature / docs / question)
  • 影響範囲のざっくり推定
  • 担当候補(過去の履歴から)
  • 結果をコメントとして書き込む or Slackに投げる

設計ポイント

  • 最初は「コメントで提案するだけ」に留める
  • ラベル確定・担当アサインは人間が行う
  • GitHubトークン権限を「ラベル追加・コメント投稿」に絞る

「Issue作成 → AIコメント → 人間が2クリックで確定」くらいでも、初動の負担はかなり減ります。


-2. Slack・メール・予定表を横断した“朝5分で読める日次ブリーフ”作成

できること

  • 朝7:30にスケジュールトリガー
  • 前日〜当日朝の
  • Slackの特定チャンネル
  • 自分宛メール
  • カレンダー予定
  • を取得してLLMに渡す
  • 「朝のブリーフィング」としてSlack DMへ送信

設計ポイント

  • Trigger → まとめて取得 → LLM要約 → Slack DM のシンプル構成
  • プロンプトで
  • 今日の重要トピック
  • 今日の予定
  • 対応が必要なタスク
    を3ブロックに分けて出力させる

「朝一でSlackとメールを30分だらだら眺める時間」が、「AIのまとめを5〜10分で読む時間」に変わります。


-3. 障害発生時の一次切り分けとRunbook案内

できること

  • 監視ツールからのWebhookを受ける
  • 関連ログ・メトリクスのスナップショットを取得
  • Runbook(ドキュメント)をRAGで検索
  • 重要度推定+類似Runbook+最初の一手をSlackに投稿

設計ポイント

  • AIには「Runbookを読んで適切なページを差し出す係」を任せる
  • インフラ操作は一切自動化しない
  • Slackの #oncall チャンネルに「推奨Runbook」と「最初の確認ステップ」を出す

夜間オンコールの「とりあえずWikiを検索する」時間を削り、最初の一歩まで連れて行ってもらうイメージです。


-4. PRレビュー前の差分チェックと“怪しい変更点”の洗い出し

できること

  • PR作成・更新をWebhookで受ける
  • 差分(diff)と関連ファイルをLLMに読ませる
  • 以下をコメント or Slackに投稿
  • 変更概要要約
  • 想定影響範囲
  • レビュー時のチェックポイント
  • 危険そうな変更のハイライト

設計ポイント

  • AIに「Approve / Merge」はさせない
  • あくまで「レビュアーの脳みそのウォームアップ」に徹させる
  • セキュリティ・認可まわりの変更は必ず指摘させる

レビューの入り口に「何が変わったか」をまとめてくれるだけで、体感はかなり楽になります。


-5. 顧客問い合わせの一次分類と返信ドラフト生成

できること

  • 問い合わせフォーム/メール受信をトリガーに
  • LLMで
  • カテゴリ
  • 緊急度
  • トーン(怒っているか、普通か)
  • 返信ドラフト(日本語敬語)
  • を生成
  • CSツールにチケット+ドラフトを作成

設計ポイント

  • 返信は必ず「下書き」止まりにする
  • CS担当がドラフトを軽く修正して送信
  • プロンプトで
  • 文面長
  • トーン
  • 含めるべき要素(要約+次のアクション)
    を指定する

「ゼロから丁寧な日本語文面を書く」時間を、大きく圧縮できます。


-6. 個人開発で止まりがちなタスクを“夜のうちに前進”させる

できること

  • 毎晩23:30にスケジュールトリガー
  • GitHubコミット・Notion更新などを取得
  • LLMで
  • 今日やったこと
  • 気づき
  • 明日の候補タスク
  • をまとめて自分のSlack DMやメールへ送信

設計ポイント

  • トリガーはCronでOK
  • 入力は「今日のコミット一覧+更新ページタイトル」程度でも十分
  • 明日の候補タスクは「30〜60分で終わる粒度」に分解させる

「何から手をつけるか考えている間に休日が終わる」問題をだいぶ和らげてくれます。


-7. 日報や振り返りを貯めて“改善提案を返すAI”に育てる

できること

  • 日報チャンネル(Slackなど)を用意
  • 日報が投稿されたらNotion / DBに保存
  • 週次でまとめてLLMに投入
  • 今週うまくいったこと
  • うまくいかなかったこと
  • 来週試すと良さそうなアクション
  • を返してもらう

設計ポイント

  • 毎日の日報をRAG用ストレージに貯める
  • 週1回の振り返りエージェントが、過去の自分の日報を検索しつつフィードバック生成
  • 精神論ではなく、具体的な行動ベースの提案を促すプロンプトにする

いわば“自分用Conway”で、
24時間バックグラウンドでログを貯めておき、週1で行動提案を返してくれるAIコーチです。


Before/Afterで見る: 常駐型AIを入れると業務はどこまで変わる?

ユースケースを並べたところで、一番気になるのはここだと思います。

「で、実際どれくらいラクになるの?」

Conwayの「24時間バックグラウンドで動く自律エージェント」を、
日本の普通の現場に落としたときのBefore/Afterを、3ケースで見てみます。


-1. ケース1: 毎日30分の確認作業が5〜10分のレビュー作業に変わる

Before

  • 朝一でSlack / メール / Issue / アラートをザーッと眺める
  • 重要そうなものにスターをつける
  • 「今日やるべきこと」を頭で段取り
  • ここだけで毎朝30分くらい溶ける

After

  • 毎朝7:30にエージェントが
  • Slack特定チャンネル
  • 自分宛メール
  • Issue更新
    を読んで要約+軽い仕分け
  • 「朝のブリーフ」としてSlack DMにまとめて送信
  • 人はそのレポートを5〜10分レビューするだけ

効果

  • 30分 → 10分で、1日20分削減
  • 平日20日だと約6.6時間/月
  • 同じことを3人がやっていたら、約20時間/月の「ログ眺めタイム」が消える

-2. ケース2: “あの人しか分からない”運用が、最低限の共有知に変わる

Before

  • 監視アラートの「これはノイズ」「これは要対応」を、特定のベテランがほぼ一人で判断
  • Runbookはあるが古くて誰も見ていない
  • その人がいないと、とりあえず全部オンコールに飛ばすしかない

After

  • 監視アラートは必ず同じフローに通す
  • Webhook → LLM → 「種別」「推奨Runbook」「重要度」などを出す
  • AIの提案はSlackにドラフトとして投稿
  • ベテランが「違う」「こっちのRunbook」とコメント
  • その修正履歴をメモリに蓄積
  • 数ヶ月後には、
  • 「こういうアラートにはこのRunbook」というパターン
  • 「ここはベテランでも迷う」という難所
    が見えてくる

効果

  • ノウハウが「ベテラン1人の頭」から「AI提案+修正履歴」に分散
  • 新人でも、AIの提案+過去の修正例を見ながら判断可能
  • 「最低限ここまでは分かる」ラインが少しずつ上がる

-3. ケース3: チームの反応速度は上がるが、承認設計がないと逆に危ない

Before

  • 顧客メール・監視アラート返信・PRコメントはすべて人間が書く
  • 1件5〜10分かかるが、「誰がどう判断したか」は明確
  • 反応速度は遅いが、誤返信は比較的少ない

After(設計ミス版)

  • エージェントが直接メール返信・チケット更新・Wiki書き換えまで自動実行
  • 反応速度は爆速
  • ただし
  • AIの微妙な誤回答がそのまま顧客に届く
  • 社内ルールや契約条件とズレた文面も自動で送られる
  • 気づかないまま「静かに誤回答を量産」してしまう

After(設計ちゃんと版)

  • AIは要約・分類・ドラフト生成まで
  • 危険なアクションには必ず承認ステップを挟む
  • メールはドラフト止まり
  • DB更新も限定フィールドのみ+人間のOK必須
  • すべての決定に
  • AI提案
  • 人間承認
  • 実行ログ
    が紐づく

ポイント

「AIにどこまで任せるか」より先に、
「AIにどこまで“絶対に任せないか”を決める

ことから設計を始めるのが重要です。


まずは最小構成でOK: 週末に試せる“常駐AIワークフロー”6つの部品

Conwayのポスト(https://x.com/SuguruKun_ai/status/2041253651671592985)を見て、

「24時間バックグラウンドで動き続ける自律エージェント」
いやいや、そんな大層な基盤はうちには…

と思った方へ。

Conway的な体験に必要な部品は6つだけで、その多くは既に持っているツールで代用できます。


-1. 部品1〜6を図で理解: Trigger / Brain / Memory / Tool / Approval / Audit

常駐AIワークフローを“1人のAI社員”ではなく6つの役割で見るとこうなります。

  1. Trigger(トリガー)
    いつ・何をきっかけに起きるか
  2. Brain(脳=LLM)
    読んで・解釈して・判断する係
  3. Memory(記憶)
    過去のデータや決定事項を覚えておくストレージ
  4. Tool(道具)
    Slack / GitHub / DB など、実際に手を動かすAPI群
  5. Approval(承認)
    危険な処理の前に人間がOK/NGを出すステップ
  6. Audit(監査)
    誰が・いつ・どんな入力で・AIがどう返し・何を実行したかのログ
[Trigger] → [Brain] → [Tool]
     ↓        ↓         ↓
  (when?)  (think)   (act)

        ↘ [Memory]  (read/write)
         ↘
        [Approval] → [Tool(実行)] → [Audit]

Conway的なエージェントも、これをうまく組み合わせているだけです。


-2. おすすめ構成例: Slack + GitHub + n8n + LLM API + Notion/DB

日本の小〜中規模チームを想定した「個人 or 小規模開発向け最小構成」はこんな感じです。

  • Trigger
  • Slackスラッシュコマンド / メッセージ投稿
  • GitHub Webhook(Issue / PR / Push)
  • n8nのCron(毎朝○時)
  • Brain(LLM)
  • OpenAI API(gpt-4o-mini
  • Anthropic API(Claude Sonnet)
  • Memory
  • Notion DB
  • Supabase / PostgreSQL
  • まずはGoogle Sheetsでも十分
  • Tool(実行)
  • Slack API(通知・DM)
  • GitHub API(コメント・ラベル)
  • 任意の社内API(HTTP)
  • Approval
  • Slackリアクションやボタン
  • GitHubコメントの /approve など
  • Audit
  • n8nの実行ログ
  • 追加でAI入出力をNotion / DBに保存

例:GitHub Issue をトリガーに動く“ミニConway”

  • Trigger:GitHub Webhook(issues.opened
  • Braingpt-4o-mini で要約+カテゴリ+担当候補
  • Memory:過去Issueと担当者履歴(Sheets / DB)
  • Tool:Slack通知+GitHubコメント
  • Approval:Slackメッセージに「✅」リアクションが付いたら続き実行
  • Audit:Webhook入力・LLMプロンプト/出力・承認者をログ保存

このくらいでも、体験としてはかなり「常駐エージェント」に近づきます。


-3. “24時間稼働”でも常時フルパワーは不要: イベント駆動で十分

最後に“24時間エージェント”の誤解を1つだけつぶしておきます。

「24時間、ずっとLLMが回り続けているのでは?」

と想像しがちですが、コストと安定性を考えるとほぼありえません

現実的には、

  • プロセス(ワークフロー基盤)は24時間生きていて
  • LLMの推論は「イベントが来たときだけ」1〜数回走る

というイベント駆動モデルです。

StripeのWebhookと同じで、

  • 支払い成功イベントが来たときだけ
  • Webhookが起きて処理して終わる

のと同様に、

  • Issueが立った
  • 朝7時になった
  • 問い合わせが届いた

ときだけエージェントが起きて、LLMを呼んで、ツールを叩いて、また寝る——で十分です。

✕ 24時間、常にフルパワーで考え続けるAI
○ 24時間、“イベントが来たときだけ” 起きて仕事するAIワークフロー

と頭の中で翻訳しておくと、コスト設計もだいぶ健全になります。


コードで雰囲気をつかむ: Webhookで動くAIエージェントの超シンプル実装例

設計の話が続いたので、「とりあえず動くもの」を1本だけ置いておきます。

Conway的な「24時間バックグラウンドで動く自律エージェント」を、実装レベルに落とすと、

Webhookでイベントを受ける → LLMに投げる → 何かしらのAPIを叩く

を淡々とやっているだけです。

ここではNode.js(Express)で、

  • GitHub Issueをトリガーに
  • OpenAI APIで要約+分類
  • Slackに確認を投げ
  • (後述)承認されたらGitHubにラベル反映

というミニエージェントを作ってみます。


-1. サンプル1: Issue作成をきっかけに、要約とラベル付けを自動化する

必要ライブラリ:

npm install express body-parser axios openai

コード(要約):

// index.js
import express from "express";
import bodyParser from "body-parser";
import axios from "axios";
import OpenAI from "openai";

const app = express();
app.use(bodyParser.json());

const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
const SLACK_WEBHOOK_URL = process.env.SLACK_WEBHOOK_URL;
const GITHUB_TOKEN = process.env.GITHUB_TOKEN;

const openai = new OpenAI({ apiKey: OPENAI_API_KEY });

// GitHub Webhook 受信用エンドポイント
app.post("/webhooks/github", async (req, res) => {
  try {
    const event = req.headers["x-github-event"];
    const payload = req.body;

    // Issue 作成以外は無視
    if (event !== "issues" || payload.action !== "opened") {
      return res.status(200).send("ignored");
    }

    const issue = payload.issue;
    const repo = payload.repository;
    const title = issue.title;
    const body = issue.body || "";
    const issueUrl = issue.html_url;

    console.log(`New issue: ${title}`);

    // 1. LLM に要約+カテゴリ判定を依頼
    const prompt = `
あなたはGitHub Issueのトリアージ担当です。
以下のIssueタイトルと本文を読み、要約とカテゴリを決めてください。

タイトル:
${title}

本文:
${body}

カテゴリは次のいずれか1つを選んでください:
- bug: 不具合・予期せぬ挙動
- feature: 新機能・改善要望
- question: 質問・問い合わせ

出力は必ず次のJSON形式のみで出力してください:

{
  "summary": "ここに日本語で要約を1〜3行",
  "category": "bug" | "feature" | "question"
}
    `.trim();

    const completion = await openai.chat.completions.create({
      model: "gpt-4o-mini",
      messages: [
        {
          role: "system",
          content:
            "あなたは冷静なIssueトリアージ担当です。指定されたJSON形式以外は出力しないでください。",
        },
        { role: "user", content: prompt },
      ],
      temperature: 0.1,
    });

    const raw = completion.choices[0].message.content ?? "{}";
    let aiResult;
    try {
      aiResult = JSON.parse(raw);
    } catch (e) {
      console.error("JSON parse error:", e, raw);
      aiResult = {
        summary: "AIによる要約に失敗しました。",
        category: "question",
      };
    }

    const summary = aiResult.summary || "(要約なし)";
    const category = aiResult.category || "question";

    // 2. Slack に確認用メッセージを送る
    const slackText = [
      `🧠 *AIが新しいIssueを整理しました*`,
      ``,
      `*リポジトリ*: \`${repo.full_name}\``,
      `*タイトル*: ${title}`,
      `*URL*: ${issueUrl}`,
      ``,
      `*要約(AI案)*:`,
      `${summary}`,
      ``,
      `*カテゴリ案*: \`${category}\``,
      ``,
      `_※この時点ではGitHubには何も反映していません。_`,
    ].join("\n");

    await axios.post(SLACK_WEBHOOK_URL, {
      text: slackText,
    });

    // 3. GitHub にコメントだけ付ける(提案として)
    const commentBody = [
      `🤖 AIによる自動トリアージ案です(まだドラフトです)。`,
      ``,
      `**要約**`,
      `${summary}`,
      ``,
      `**カテゴリ候補**: \`${category}\``,
      ``,
      `> この内容を採用するかどうかはメンテナの皆さんでご判断ください。`,
    ].join("\n");

    await axios.post(
      `https://api.github.com/repos/${repo.full_name}/issues/${issue.number}/comments`,
      { body: commentBody },
      {
        headers: {
          Authorization: `Bearer ${GITHUB_TOKEN}`,
          "User-Agent": "mini-conway-agent",
        },
      }
    );

    res.status(200).send("ok");
  } catch (err) {
    console.error(err);
    res.status(500).send("error");
  }
});

// ポートを開けて“常駐”
const PORT = process.env.PORT || 3000;
app.listen(PORT, () => {
  console.log(`Mini agent listening on port ${PORT}`);
});

ポイント

  • これは「Webhookで起きる一発処理」で、常にCPUを回しているわけではありません
  • Issueが来たときだけLLMを呼び、コメントして終わる
  • それでも、「Issueが作られたら必ず1回見てくれる担当」としては十分常駐エージェントです

-2. サンプル2: 危険な処理は自動実行せず、Slack承認に回す

次に、「AIの提案を人間が承認したらGitHubにラベルを反映」する形にします。

ざっくり構成:

  • Slackメッセージに /approve-issue {issue_number} {label} の例を添える
  • Slashコマンドで承認を受ける
  • SlashコマンドをトリガーにGitHubラベル追加

Slashコマンドの受け口(概略):

// Slack Slashコマンド用(署名検証などは省略)
app.post("/slack/approve-issue", async (req, res) => {
  const text = req.body.text || ""; // "123 bug"
  const [issueNumberRaw, labelRaw] = text.split(/\s+/);
  const issueNumber = parseInt(issueNumberRaw, 10);
  const label = labelRaw || "question";

  const repoFullName = process.env.GITHUB_REPO; // "owner/repo"

  if (!issueNumber || !label) {
    return res.send("Usage: /approve-issue  

これで、

  • AIが「こうラベル付けすると良さそうです」とSlackで提案
  • 人が /approve-issue 123 bug を打ったときだけGitHubに反映

というHuman-in-the-loop付きエージェントになります。


-3. 実装で先に決めるべきこと: プロンプトより権限境界

ここまでを見ると分かる通り、

  • プロンプトは後からいくらでも調整できますが
  • 権限境界をミスると一発で事故る

ので、導入時の優先度はこうなります。

  1. 読み取り専用から始める(通知だけ)
  2. 次に「下書き」まで許す(メール・コメントなど)
  3. 一部フィールドだけ書き込み許可(ラベル追加など)
  4. それでも不安なら、すぐ止められるフラグと詳細ログを用意する

XでConwayのような「24時間自律エージェント」を見ていると、
つい「プロンプトを賢く書けば何でも安全に任せられるのでは?」と思いがちですが、
実装側の順番は逆で、

先に「どこまで絶対にやらせないか」を決めて権限を絞る
その中で「読み取り+提案」に全力を出してもらう

方が現場ではよく回ります。


便利そうで怖い…を放置しない: 導入前に知るべき4大リスクと対策

Conwayのポスト(https://x.com/SuguruKun_ai/status/2041253651671592985)を見ていると、

  • めちゃ便利そう
  • でも正直ちょっと怖い
  • どこが危ないのか整理された話はあまり流れてこない

というモヤモヤも出てきます。

ここでは、

  1. 間違いが“自動で拡散”される
  2. 情報を見せる範囲が広がるほど漏えいリスクも増える
  3. 「少額のはず」が積み上がる利用コスト
  4. 誰の判断なのか曖昧になる責任問題

の4つに絞って、リスクと対策をセットで整理します。


-1. リスク1: 間違いが“自動で拡散”される

起こりうること

  • LLMが「それっぽいけど微妙に間違った」要約・分類・返信文を出す
  • それを
  • メール返信
  • チケット更新
  • ドキュメント書き換え
    に自動反映してしまう
  • 人間がレビューしないので、静かに間違いが増殖していく

対策

  • 自動実行の範囲を明示的に分ける(提案止まり / 承認必須 / 自動OK)
  • デフォルトは「下書き」止まりにする(メール・チケット・文書)
  • AI由来であることが分かる印(タグや絵文字)を必ず付ける

-2. リスク2: AIに見せる情報が増えるほど、漏えいリスクも増える

起こりうること

  • Slack / メール / カレンダー / ドキュメントを横断して読むようになり
  • LLM APIに渡すデータの量とセンシティブ度が一気に上がる
  • API設定や運用ミスで、想定以上の情報が外部に出る

対策

  • LLMに渡す前に、個人情報・契約ID・顧客コードなどをマスキング
  • 機密度に応じて
  • ローカル or 社内LLM
  • 外部LLM
    を使い分ける
  • エージェントごとにAPIキーとアクセス権限を細かく分割する
  • プロンプト・レスポンスログの保存場所と保持期間を最初に決めておく

-3. リスク3: “少額のはず”が積み上がる利用コスト

起こりうること

  • 「1リクエスト数円だから余裕」とノールックで実装
  • 常駐エージェントが
  • 無駄に頻繁なポーリング
  • 不要な再試行
    でLLMを呼びまくる
  • 1ヶ月後に「想定より課金が重い」と気づく

対策

  • 常にイベント駆動にする(Webhook+Cron、ポーリングは極力しない)
  • まとめて処理できるものはバッチにする(メール30件まとめて、など)
  • まずは軽量モデル+短いプロンプトから始める
  • PoC段階からUsageモニタリングを組み込み、エージェント単位でコストを見える化する

-4. リスク4: 誰の判断なのか曖昧になる責任問題

起こりうること

  • エージェントの提案をそのまま反映
  • 問題が起きたときに
  • 「AIがそう言ったから」
  • 「でも君が承認したよね?」
    となり、責任があいまいになる
  • 結果として「AIは危ないから止めよう」文化が強化される

対策

  • すべての決定に
  • AI提案(ai_suggestion)
  • 人間承認(human_approval)
  • 実行結果
    をログで紐づける
  • エージェントごとに「自動で決めてよいこと / 提案だけに留めること」を仕様として文書化
  • エージェント停止用のフラグやスイッチを用意しておき、問題時にはすぐ人力運用に戻せるようにする
  • 「AIの位置づけ(補助か、どこまで裁量を持つか)」を社内ガイドラインとして明文化する

今週やるならこれ: エンジニア向け“失敗しにくい導入3ステップ”

ここまで読んで「良さそうだけど、結局まだ眺めてるだけだな…」となると、明日も普通に手でチケット整理するだけになってしまいます。

“動いて後悔しにくい”最初の3ステップを、かなり現実寄りにまとめるとこうなります。


-1. ステップ1: まずは“毎日発生する面倒ごと”を1つだけ選ぶ

やることはシンプルで、

  1. 自分の毎日の手作業を10〜20個ほど書き出す
  2. その中から次の条件で1つだけ選ぶ
  3. 毎日 or 毎営業日 発生している
  4. 入力の形がだいたい決まっている(特定チャンネル・特定メールアドレスなど)
  5. 失敗しても「ちょっと面倒」レベルで済む
  6. そのタスクに名前を付ける
  7. 例:
    • 「朝のSlackとメールのざっと確認」
    • 「新規Issueのラベル決め」
    • 「問い合わせメールのカテゴリ分け」

ここまで決めてしまえば、あとは「このタスク専用ミニConway」を作るだけです。


-2. ステップ2: 最初の1〜2週間は“読む専用AI”として使う

いきなり「書き込み」「返信」まで任せないのがポイントです。

  • AIに任せるのは
  • 要約
  • 分類
  • 優先度のラフな推定
  • レビュー観点リスト
  • 人間がやるのは
  • 提案内容の確認
  • 本当にやるべきかの判断
  • 手作業での更新・返信

つまり、「読む+まとめる」だけをAIに投げます。

具体的には、

  • トリガーを1つ決める(Issue作成 / メール受信 / 朝7:30 など)
  • LLMにやらせる「読み仕事」を1〜2ステップに絞る
  • 出力先を「自分が毎日見る場所」(Slack DMなど)にする
  • 可能なら Trigger → LLMノード → Slack の1本をn8nで組む

この段階では、何も自動更新しません
ただそれでも、「イベントが来たらAIが先に読んでまとめておいてくれる」体験は得られます。


-3. ステップ3: 精度が見えてから、承認付きで一部自動化する

1〜2週間「読む専用エージェント」を回してみると、

  • ほぼ毎回当たるパターン
  • たまに外すパターン
  • そもそもAI向きでないパターン

が見えてきます。

その中から、

  • 失敗してもすぐ気づける
  • ロールバックが簡単

という2条件を満たす部分だけを選び、承認付きで自動化します。

例えば:

  • Issueカテゴリ → 精度高&誤ラベルはすぐ直せる
    /approve-issue コマンドでラベル自動追加
  • 顧客メールの緊急度 → 微妙
    → 引き続き「提案止まり」

このとき、メトリクスを1つ決めておくと良くて、

  • 「AI提案が採用された割合」
  • 「ドラフトに対する加筆量」

などを週1回見るだけでも、どこまで自動化を進めてよいか判断しやすくなります。


FAQ: 自作できる?日本語業務で使える?企業導入の壁は?

最後に、Conwayのポスト(https://x.com/SuguruKun_ai/status/2041253651671592985)を見た人がほぼ確実に抱きそうな疑問をQ&Aで整理します。


Q1. Conwayみたいな“24時間エージェント”って、自作できる?完成品を待つべき?

  • Conwayそのものは未確認情報(公式一般提供ではない)です
  • ただし、「Webhookで起きて裏でタスクを進めるエージェント体験」は、
  • Webhook(GitHub / Slack / Stripe)
  • n8n / Zapier
  • LLM API(OpenAI / Anthropic)
  • Notion / DB
    の組み合わせで、今日からでもかなり再現できます
  • 完成品を待つより、自作できる部分から組んだほうが早いです

Q2. 既存のワークフロー自動化だけじゃ足りないの?

  • Zapier / n8n で十分な領域も多いです
  • 請求書転送、レコード作成、通知など、ルールで書けるもの
  • ただし
  • フリーテキストの要約
  • 問い合わせ分類
  • 優先度判断
    のような「人間なら3秒で分かるがif文にはしづらい」領域ではLLMが効きます
  • 結論としては
  • ルールで書けるところ → ワークフロー自動化
  • グレーゾーン → AIエージェント
    というハイブリッド構成が最適です

Q3. 日本語の社内業務や顧客対応でも実用になる?

  • GPT-4系 / Claude系は、日本語の要約・分類・ドラフト生成はかなり実用レベルです
  • ただし、
  • 社内特有の言い回し
  • 敬語レベル
  • 法務・契約表現
    はそのまま任せるとズレやすいです
  • なので、
  • 要約・分類・社内向けレポート → 積極的に活用
  • 外部顧客への最終返信・契約文 → AIはあくまで「下書き」、必ず人間レビュー
  • 敬語やトーンはプロンプトで明示しつつ、「ドラフト専用」として使うのがおすすめです

Q4. 企業導入で最大の壁は技術?それとも運用?

多くの場合、技術より運用設計のほうが壁になります。

  • 権限設計
  • AIにどこまで見せるか、どこまで書かせるか
  • 承認フロー
  • どの処理は誰の最終承認が必要か
  • ログ・監査
  • 誰が・いつ・どのAI提案を承認したか
  • 責任分界
  • 問題が起きたとき、最終責任者は誰か

Webhookやn8nとLLMをつなぐ技術的ハードルより、
「AIにやらせること・やらせないこと」を社内で合意し、ルールに落とすことのほうが難しいです。


Q5. 個人でも試す価値ある?会社の環境じゃなくても意味ある?

かなりあります。むしろ個人のほうが動きやすいです。

  • Conway的な本質は
  • イベントが来たら起きて
  • 面倒な前処理を片づけておいてくれる
    という設計パターン
  • これは個人開発・学習でもそのまま効きます
  • 個人プロジェクトのIssue整理
  • 学習ログの日報要約
  • 競合サービスの更新チェック など

会社で導入を考えている人ほど、
まずは個人環境で「自分用ミニConway」を作って、設計の勘所を掴んでおくと後が楽になります。


まとめ: “AIに聞く”から“AIが待っていて動く”へ、次の主戦場は設計力かもしれない

最後に、今日の内容をコンパクトに振り返ります。


-1. 30秒でおさらい: 今日のポイントはこの5つ

  1. 「24時間エージェント」という概念は本物だが、Conway自体はまだ観測レベル
  2. ただし、Webhookで起きて裏でタスクを進めるAIという流れは、すでに多くのツールで現実になりつつある

  3. チャットAIと常駐AIの違いは「いつ起きるか」と「何をトリガーに動くか」

  4. チャットAI:人が聞いたら答える相談役
  5. 常駐エージェント:イベントで起きる当番担当
  6. 中身は同じLLMでも、業務フローへの入り方が違う

  7. いちばん強いのは「ワークフロー自動化 × AI判断」のハイブリッド

  8. ルールで書けるところはZapier / n8n
  9. フリーテキストの要約・分類・優先度付けはLLM
  10. 「線路を引く」のがワークフロー、「線路に乗せる前の整理」がAI

  11. 常駐エージェント設計は“6つの部品”をどう組むかのゲーム

  12. Trigger / Brain / Memory / Tool / Approval / Audit
  13. Conway的な常駐体験も、この6つをWebhook+n8n+LLM API+Notion/DBで埋めればかなり再現できる

  14. これからの主戦場は「どのモデルを選ぶか」より「どう働かせるか」

  15. どのイベントで起こすか
  16. 何をAIに任せて、何を人間に残すか
  17. どこに承認・ログ・権限境界を置くか
    が、チームごとの“設計力”として差になっていく

-2. 次の一歩: あなたの業務で“通知が来たら自動で見てほしいこと”を書き出そう

この記事全体を1行にすると、

「AIにうまく聞く」時代から、
「AIが勝手に起きて先に見ておく枠組みを設計する」時代に移りつつある

という話でした。

このタブを閉じる前に、メモアプリでも紙でも良いので、次の問いに3つだけ答えてみてください。

「通知が来たときに、AIに“先に目を通しておいてほしい”ものは何か?
(毎日 or ほぼ毎日発生するものに限定)

例えば:

  • 毎朝の Slack / メールの重要トピック整理
  • 新規 Issue / PR のざっくり要約とカテゴリ分け
  • 問い合わせフォームの一次分類+緊急度判断
  • 自分の日報やコミットから「今日やったこと」のサマリ

そのうち1つだけを選んで、

  • まずは「読む専用エージェント」として
  • Webhook or スケジュールで起こし
  • LLMで要約・分類させて
  • Slackに投げる
  • 1〜2週間回してみてから、
  • どこまで承認付き自動化に進めるか
  • どこは人間に残すか

を決める。

それだけで、「Conwayすごい」を眺める側から、
“自分のチーム用ミニConway”を持っている側へ一歩進めます。

あなたなら、
どの「面倒だけど毎日起こる通知」を、最初にAIに任せますか?


参考記事: X:SuguruKun_ai - ついに!!Anthropicが24時間起動する AIエージェント「Conway」を秘密裏にテストしていたことが判明。


関連記事

コメント

タイトルとURLをコピーしました