分散学習

スポンサーリンク

ソフトバンク×インテルの次世代メモリ技術 ZAM 協業

「GPUメモリが足りないから、モデルを泣く泣く小さくした」「分散学習の sharding 地獄に数週間持っていかれた」 ……そんな経験、ありませんか？正直、ここ2〜3年のAIインフラって「計算よりメモリがボトルネック」なんですよね。計算性...

LayerNorm vs BatchNorm 解説記事

「なんでTransformerは全部LayerNormなんだよ、BatchNormで統一してくれよ…」そう心の中でツッコんだこと、ありませんか？😇画像モデルばかり触ってきたエンジニアがNLPやLLMのコードを開くと、だいたいこうなります。#...

スポンサーリンク