RLHF - AIテックニューストゥデイ

Duplication of ‘Sparse Reward Subsystem in Large Language Models’ Note Article

「LLMにフィードバックしても、次のプロンプトでは全部リセットされた気がする」そんなモヤっと感、経験ありませんか？「この方針で続けて」「さっきのは良くなかったから別アプローチで」と丁寧に指示しても、・数ターン後にはまた同じ失敗をする・“学...

2026.02.09

AI関連

「中国向けのLLMを選ぶとき、- 中国語が微妙- レイテンシ高い- 料金も読みにくい- 規制も怖い ……で結局『まあGPTでいいか』となったこと、ありませんか？」実はそこに、かなり本気で殴り込んできたやつが出てきました。Moonshot A...

2026.01.29

AI関連

「また新しいLLM出たけど、・数学だけは微妙・コードは動くけどテスト通らない・長い仕様を投げると途中から話がズレる…そんな経験、ありませんか？」正直、ここ1〜2年のLLMアップデートって「スコアは伸びてるけど、実務のつらみはあまり減ってない...

2026.01.06

AI関連

「またプロンプトをいじる一日が終わった……」そんな日、まだ続いていませんか？ちょっとタスクが複雑になるとすぐに変な推論を始めるモデルを変えたら、同じプロンプトなのに挙動がまるで別物コストはじわじわ上がるのに、品質は頭打ち感…正直、ここ1...

2026.01.05

AI関連

「LLMなに使うか会議」、毎回揉めてませんか？MetaのLlamaにするか、DeepSeekにするか、はたまたクラウド専用モデルに寄せるか…。その裏で、「どうせ全部NVIDIA GPUで動かすんだから、純正モデル出してくれよ」と内心思ったこ...

2025.12.17

AI関連