RLHF

スポンサーリンク
AI関連

Duplication of ‘Sparse Reward Subsystem in Large Language Models’ Note Article

「LLMにフィードバックしても、次のプロンプトでは全部リセットされた気がする」そんなモヤっと感、経験ありませんか? 「この方針で続けて」「さっきのは良くなかったから別アプローチで」と丁寧に指示しても、・数ターン後にはまた同じ失敗をする・“学...
AI関連

Kimi K2.5: 1-Trillion-Parameter Chinese LLM Announced

「中国向けのLLMを選ぶとき、- 中国語が微妙- レイテンシ高い- 料金も読みにくい- 規制も怖い ……で結局『まあGPTでいいか』となったこと、ありませんか?」実はそこに、かなり本気で殴り込んできたやつが出てきました。Moonshot A...
AI関連

DeepSeekが新しい高度AIモデル訓練手法を公開

「また新しいLLM出たけど、・数学だけは微妙・コードは動くけどテスト通らない・長い仕様を投げると途中から話がズレる…そんな経験、ありませんか?」正直、ここ1〜2年のLLMアップデートって「スコアは伸びてるけど、実務のつらみはあまり減ってない...
AI関連

DeepSeek unveils new advanced AI training method

「またプロンプトをいじる一日が終わった……」そんな日、まだ続いていませんか?ちょっとタスクが複雑になるとすぐに変な推論を始める モデルを変えたら、同じプロンプトなのに挙動がまるで別物 コストはじわじわ上がるのに、品質は頭打ち感…正直、ここ1...
AI関連

NVIDIAがオープンソースLLM「Nemotron 3」を発表

「LLMなに使うか会議」、毎回揉めてませんか?MetaのLlamaにするか、DeepSeekにするか、はたまたクラウド専用モデルに寄せるか…。その裏で、「どうせ全部NVIDIA GPUで動かすんだから、純正モデル出してくれよ」と内心思ったこ...
スポンサーリンク