非LLM・1GBメモリAI自作記事

eyecatch AI関連

「とりあえずLLMで」のせいで、プロジェクトがよくわからない沼に沈んだ経験、ありませんか?

  • コスト見積もりはトークン単価と雰囲気でしか出せない
  • ちょっと仕様を変えるだけでプロンプト沼&ハルシネーションと格闘
  • ログを追っても「なぜそう答えたか」が最後までわからない

正直、ここ1〜2年で「LLM疲れ」を起こしているエンジニアはかなり多いはずです。
そんな空気の中で、「メモリ1GBで動く・非LLMのAIを自作した」という記事が出てきたのは、かなり象徴的だと感じました。

一言で言うとこれは、

LLM 全盛時代に出てきた、「AI界の Go 製モノリス」

だと思っています。
みんなが Kubernetes とマイクロサービスで空中戦をしているときに、
「いや、単一バイナリで十分なケース、まだあるよね?」と、静かにナイフを研いでいる感じです。


これはただの「昔のやり方」ではない

これはただの「昔のやり方」ではない

この記事の面白さは、「新しいモデルを作りました!」ではなく、

“制約”を出発点に、あえて非LLMで「AIっぽいもの」を作り切った

というところにあります。

  • 非LLM宣言
  • Transformer も巨大パラメータも使わない
  • ルールベース+小さなML+テンプレート生成
  • それでも、ユーザーから見ると「それっぽく賢い」動きに見えるように設計

  • メモリ 1GB というハード制約

  • GPUもVRAMも前提にしない
  • 1GB RAM の VPS やローカルで完結する構成
  • 「とりあえずクラウドでデプロイ」から完全に距離を取っている

  • LLM疲れへのアンチテーゼ

  • 「LLM + ベクタDB + LangChain」がデフォルト化した世界で
  • そもそもタスクを分解し、「小さな決定可能なロジック」に戻している

ここで重要なのは、

“あえて”古典的手法を選んでいる

という点です。
手元にはGemma 3 や Llama、DeepSeekなど軽量LLMの選択肢があるのに、あえて外している。
これは「技術的にできない」からではなく、「思想として選ばない」という態度表明なんですよね。

正直、この態度そのものに価値がある、と私は思っています。


一言でいうと「LangChainを使うまでもない世界」の実例

このアーキテクチャを、あえてLangChain的なLLMスタックと比較してみます。

LangChain & LLM スタック

  • 依存:
  • LLM API(OpenAI, Anthropic, etc.)
  • ベクタDB(Pinecone, Chroma, Weaviate…)
  • そこそこ強いインフラ or GPU
  • 強み:
  • 汎用性抜群、「とりあえず投げればなんとかなる」
  • RAGやツール呼び出し、エージェントなど、表現力が高い
  • 弱み:
  • コスト構造が読みにくい(トークン課金 & GPU)
  • 応答が非決定的で、再現性・デバッグ性が低い

非LLM + 1GB アーキテクチャ

  • 依存:
  • ローカルで完結するルール & 軽量ML
  • 小さなRDB or ファイルストレージ
  • 1GB RAM の安VPSでも動く
  • 強み:
  • コストが明確・激安
  • 応答ロジックをトレース可能(if / else で追える)
  • オフラインや閉域でそのまま運用しやすい
  • 弱み:
  • 汎用性は低く、タスクをかなり絞る必要がある
  • 日本語を含む自然言語理解の「グレーゾーン」は、自前でつぶす必要がある

つまりこれは、

「LangChainをわざわざ持ち出すほどでもないタスク」に
ちゃんとした対案を出した

という点が重要です。

最近、「ローカルでGemma 3 を動かす」とか「Ollama + Open WebUIでRAG環境を作る」といった記事も増えていますよね。
あれはあれで素晴らしいし、LLMの民主化という意味では大歓迎です。

ただ、そこですら「メモリ8GB」「GPU 8GB VRAM」「量子化モデルでも数GB」という世界観が前提になっている。
この1GB非LLMアプローチは、そのさらに外側にいて、

「そもそもLLM、本当にいる?」

と問い直してくるわけです。ここが刺さる人にはかなり刺さるはずです。🤔


一番の価値は「アーキテクチャの考え方」を見せたこと

一番の価値は「アーキテクチャの考え方」を見せたこと

技術的な中身だけを見ると、

  • ルールベース
  • 単機能な ML モデル(分類器など)
  • 状態機械っぽい応答制御
  • テンプレートベースのレスポンス生成

と、やっていることは正直すごく地味です。

でも、この地味さを「2020年代のWebアプリの形」に落とし込んだところが新しい。
ただのスクリプトではなく、

  • Webフロントエンド
  • APIサーバ
  • 軽量な推論ロジック
  • 小さなDB

で、「見た目は今風のAIチャット/アシスタント」に仕立てている。
ここに、古典的AI手法の現代リライトとしての価値があります。

歴史的に見ると、

  • 1990–2010年代:ルールベースやSVM、決定木でがんばる
  • 2018–2023年:Transformer & LLMで「なんでもLLM」が正義
  • 2024–:LLMを使いつつも、「制約付き・軽量AI」への揺り戻し

という流れの中で、この事例ははっきりと「ポストLLMの入り口」に位置づけられると感じます。


誰がこれを怖がるべきか?

このアプローチ自体は、ChatGPT級のSaaSを殺すような話では全くありません。
が、地味に刺さる領域はそれなりにあります。

過剰にLLMを使っているSaaS

  • FAQボット
  • 内部ツールのちょっとした補助入力
  • 固定されたワークフローのガイド

こういう「ルールとちょっとした分類で十分なもの」に、
LLM + LangChain + ベクタDB + 高スペックインフラを盛り盛りに乗せているプロダクトは、
正直、「それ、非LLM+1GBでよくない?」と突っ込まれかねません。

「ローカルAI=LLMしかない」と思っている層

Gemma 3 や Llama、DeepSeek などをローカルで回す記事が増えていますが、
そこに登場するスペックはだいたいこんな感じです:

  • メモリ 16〜32GB
  • GPU VRAM 8〜24GB
  • モデルサイズ数GB〜十数GB

一方で、1GB非LLMは、

  • 1GB RAM の Raspberry Pi でも組み込みできそうなサイズ感
  • VPS月数百円でも動かせる

という世界観です。
「ローカルAI=LLM」しか頭にないと、この選択肢に気づけないんですよね。


ぶっちゃけ:落とし穴もかなり多い

ぶっちゃけ:落とし穴もかなり多い

ここまで褒め気味に書いてきましたが、懸念点もかなりはっきりしています。

汎用性がほぼない

LLMの強みである、

  • 多少雑な日本語でも意図をくみ取る
  • 想定外の質問にもそれなりに答える
  • ドメイン外の知識もそれなりに持っている

といった「ざっくり強い」性質は、非LLM構成ではほぼ失います。

タスクを厳密に絞らないと、

  • 想定外入力が来た瞬間に破綻する
  • ルールの網から漏れたケースがボロボロ出る

という状況になりがちです。
「AI」というより、かなりガチガチに作り込んだスマートオートメーションに近い。

実装コストは地味に高い

LLMに丸投げしていた部分を、

  • 意図分類ロジック
  • 状態管理
  • エラーケースのハンドリング

として自前で全部書き下ろす必要があります。
一度作れば安定するとはいえ、
「要件がフワフワしているフェーズ」ではLLMのほうが圧倒的に楽です。

プロトタイピングのスピードで言えば、
ぶっちゃけLLMの圧勝です。

スケールすると結局つらくなる

要件追加のたびに、

  • 新しい if / else
  • ルール追加
  • 軽量モデルの追加・学習

が必要になります。
これは結局、「昔のエキスパートシステムがルール爆発で死んだ歴史」をなぞりかねません。

特に日本語の自然言語処理を中途半端にがんばり始めると、

  • 形態素解析
  • 辞書メンテ
  • 表現ゆらぎとの戦い

など、LLMがうまく丸め込んでくれていた部分に、
再び人間の工数が積み上がっていきます。

ユーザーの「AI期待値」とのギャップ

2026年の一般ユーザーにとって「AI」といえば、
ほぼChatGPTクラスの体験を指します。

非LLM+1GBで作れるのは、

  • かなり用途限定
  • かなり挙動がキッチリしすぎている

タイプのアシスタントです。
ここで「AIチャットボットです!」とだけ言ってしまうと、
だいたいガッカリされます。

UX的には、

「特定業務に特化した“半自動オペレーター”です」

くらいの説明がちょうどいい、と個人的には思います。


なぜそれでも「1GB・非LLM」は意味があるのか

ここまで読むと、

じゃあ結局、実務ではLLMでよくない?

という声も聞こえてきそうです。
それでも、このアプローチにははっきりとした価値が3つあります。

コスト構造をフラットにし直せる

LLM前提だと、プロダクトのコスト構造はどうしても、

  • トークン課金
  • GPU or 高スペックマシン
  • ネットワーク(APIレイテンシ・帯域)

に引きずられます。

1GB・非LLMの場合、

  • 月数百円のVPS or ラズパイ級ハード
  • 電気代以外ほぼ固定
  • オフライン運用も視野に入る

という、めちゃくちゃシンプルな構造になります。

「この機能、ユーザー課金いくらにしよう?」を考えるときに、
コストが読みやすいのはビジネス的にかなり大きいです。

デバッグと責任の所在がはっきりする

LLMに任せていると、

  • 変な返答が出ても、「モデルの中でなにが起きたか」はほぼブラックボックス
  • 再現性も低く、「同じ入力で同じ出力」が保証できないことも多い

非LLMなら、

  • 入力 → どのルール/モデルを通過したか → 出力

をトレースできます。

なぜそう答えたか
どのルールが効きすぎているか
どこにバグがあったか

が、人間に追える形で残る。
これ、法務・コンプラ・監査が絡む領域ではかなり重要です。

「本当にLLMが必要か?」を毎回問い直させる

正直、一番の効用はここだと思っています。

  • 仕様を聞いて
  • なんとなくLLMを当てはめて
  • なんとなくベクタDBを用意して

というルーチンに入りかけたときに、

これ、非LLM+1GBでいける設計ないか?

と一度立ち止まる癖がつく。
この記事は、その「思考のフック」として機能します。

エンジニアリングって、本来は制約から組み立てる遊びのはずなんですよね。
メモリ1GBという極端な制約をあえて置くことで、

  • 何を捨てるのか
  • どこまで単純化できるのか
  • どこから先はLLMに任せるべきか

を真面目に考えさせてくれる。
その意味で、これは「アンチLLM」ではなく、
むしろ健全なLLM利用のための対置だと感じています。


プロダクションで使うか?正直まだ様子見です

プロダクションで使うか?正直まだ様子見です

私自身の結論を正直に書くと、

  • なんでもかんでも1GB・非LLMでやるつもりは全くない
  • でも、「小さくて済むもの」をちゃんと小さく作るための
    思考フレームとしてはかなり有用

という立ち位置です。

プロダクションでの使いどころを挙げるなら:

  • 特定業務にガチガチに閉じた社内ツール
  • 組み込み・IoT デバイス上の「ちょっと賢いUI」
  • 教育用・体験用の「AIの中身を見せる教材」

あたりが現実的かなと。

逆に、以下のようなものにこれを当てはめるのは、
さすがに無茶だと思っています:

  • オープンドメインのQ&A
  • クリエイティブ生成(文章、コード、画像)
  • 複数ドメインをまたぐ高度な自然言語理解

そういうところでは、素直にGemma 3やLlama、DeepSeekを呼び出した方がいい。
そしてそのときも、

「どこまでLLMに任せて、どこから先は非LLMで固めるか?」

という設計思想を持っておくと、
プロダクトはずっと健全になるはずです。


まとめ:LLM疲れのエンジニアにこそ読んでほしい理由

この「非LLM・1GBメモリAI自作」の事例は、

  • 新しいSOTAモデルを叩き出したわけでも
  • LLM時代を終わらせる革命でも

まったくありません。

でも、

  • 「AI = LLM」という思考停止から一歩引かせてくれる
  • 制約から設計する楽しさを、2020年代にもう一度思い出させてくれる
  • 「LangChainを使うまでもない世界」をちゃんと見せてくれる

という意味で、技術記事としてかなり価値が高いと感じました。

LLMのチュートリアルに疲れてきた人ほど、
一度こういう極端に小さいAIを真面目に設計してみるのはアリです。

その上であらためてGemma 3やOllama、RAG付きのローカルLLM環境を触ると、
「どこまでLLMに頼り、どこから先を自分で設計するか」の感覚が
かなり変わってくるはずです。🚀

ーーー
あなたなら、今自分が作っている機能のうち、
どこまでを「非LLM+1GB」で置き換えられると思いますか?

コメント

タイトルとURLをコピーしました