CARVIEW |
Select Language
HTTP/2 200
date: Sat, 11 Oct 2025 01:43:32 GMT
content-type: text/html; charset=utf-8
cache-control: max-age=0, private, must-revalidate
cf-cache-status: DYNAMIC
link: ; rel=preload; as=style; nopush,; rel=preload; as=script; nopush,; rel=preload; as=style; nopush,; rel=preload; as=script; nopush,; rel=preload; as=script; nopush
nel: {"report_to":"heroku-nel","response_headers":["Via"],"max_age":3600,"success_fraction":0.01,"failure_fraction":0.1}
referrer-policy: strict-origin-when-cross-origin
report-to: {"group":"heroku-nel","endpoints":[{"url":"https://nel.heroku.com/reports?s=uX1zYOuu9hdav%2B0F0fVmWtm%2BEJTBBJauT%2B5kI4GJ2ag%3D\u0026sid=e11707d5-02a7-43ef-b45e-2cf4d2036f7d\u0026ts=1760147011"}],"max_age":3600}
reporting-endpoints: heroku-nel="https://nel.heroku.com/reports?s=uX1zYOuu9hdav%2B0F0fVmWtm%2BEJTBBJauT%2B5kI4GJ2ag%3D&sid=e11707d5-02a7-43ef-b45e-2cf4d2036f7d&ts=1760147011"
server: cloudflare
strict-transport-security: max-age=0; includeSubDomains
vary: Accept,Accept-Encoding
via: 2.0 heroku-router
x-content-type-options: nosniff
x-permitted-cross-domain-policies: none
x-request-id: d701a625-039a-068e-f612-074efb672bde
x-runtime: 0.126102
x-xss-protection: 0
content-encoding: gzip
set-cookie: _secure_speakerd_session=lMn%2FKlTsjBFp5uBvnsOOxCG4dZVG4Z4QhHu4eIKCUvFezs6nuceVBnVIyffHu82TqrOl2UaKSlmljj6QoKpQsjFU0gERdIqUhdwO216zKLGJZZ3dJj%2FXU%2B9MPWb%2FdNO50JlqSJFhzPyp5%2B4dvpUQLsTJbm0lttoPGPq8UwTiXunzSuzav8wcoMKza8VQyF%2FdCsEyZplRHjzdD2bil%2FgRpEl1qc5mYCw%2BLaWSoN4e5gQaAZ1L9Iykyzo4FEOkv17SqX2gswV76b6CXVGtQ%2BbMfuXYiN13yaABHpiOBm56EURt6DroNhS3ewEhquSQWAEA%2FaE3%2BZmb14cGQjgA%2FbafvVygTj8ZcMoKuo8O5n%2B%2FG4O8pGaa0rGu19RO%2Bgb9zXXEpdr2Qf%2Fx18FBp1%2FtQYQZb8x3--ax%2BbRr4PI6%2Ft%2FCBP--AUNtfy5tGqjrmCBdlmRi8Q%3D%3D; HttpOnly; SameSite=Lax; Secure; Path=/; Expires=Sat, 25 Oct 2025 01:43:32 GMT
cf-ray: 98caaac43e70a8b0-BLR
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking - Speaker Deck
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
Cloud Operator Days Tokyo 2025 Closing Event Keynote (20min)
https://cloudopsdays.com/closing/
LLMなどの大規模なAI基盤モデルの学習は、GPU計算ノード、高速ネットワークやスケーラブルなストレージを統合した高性能計算インフラを必要とします。さくらインターネットでは、この要件に最適化した大規模AI学習向けマネージドHPCクラスタ「さくらONE」を提供しています。 本講演では、MLPerf Trainingベンチマークスイートを用いたGPT-3の分散学習によるAIスパコンの評価事例を紹介します。 特に、分散学習ワークロードの特性、さくらONEのシステム構成と性能評価結果、および、処理効率を計るためのテレメトリー分析の観点を取り上げます。
Yuuki Tsubouchi (yuuk1)
September 05, 2025
More Decks by Yuuki Tsubouchi (yuuk1)
Other Decks in Research
Featured
Transcript
-
坪内 佑樹 (@yuuk1t) さくらインターネット研究所 AIスパコン「さくらONE」の LLM学習ベンチマークによる性能評価 Cloud Operator Days Tokyo
2025 Closing Event Keynote 2025/09/05 -
プロフィール さくらインターネット研究所 上級研究員 博 士 (情報学) 2013-2018 2 株式会社はてな
Webオペレーションエンジニア/SRE ͘͞ΒΠϯλʔωοτɹ 2019-ݱࡏ 坪内 佑樹 @yuuk1t 2020-2023 ژେֶେֶӃ ใֶݚڀՊ ത࢜ޙظ՝ఔ ςϨϝτϦʔ/AIOpsͷݚڀ 京都市在住 -
深層学習の処理の流れ 反復構造をもつ Webアプリケーションのようなトランザク ション型ではなく、バッチ型のワークロード ॱൖ ޡࠩ ٯൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़
ޯ ֶशσʔλ ॱൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ෮̍ ෮̎ 1. ࢄֶशͱΠϯϑϥͷجຊ --.։ൃͰֶशδϣϒΛԿճ ೖͯ͠ࢼߦࡨޡ͢ΔͨΊɺ δϣϒ࣮ߦΛߴԽ͍ͨ͠ 5 -
分散深層学習 - データ並列(DP) モデルをGPUごとに複製し、データを分割して並列処理 ॱൖ ٯൖ ύϥϝʔλ ߋ৽ ॱൖ ٯൖ
ύϥϝʔλ ߋ৽ ॱൖ ٯൖ ύϥϝʔλ ߋ৽ "MM3FEVDF ʢ૯ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛूԋࢉ ͠ɺ֤(16্ͷϝϞϦ݁ՌΛ ूஂ௨৴ 6 1. ࢄֶशͱΠϯϑϥͷجຊ -
モデルのパラメータ数増 大 メモリの壁(Memory Wall) (IPMBNJ "NJS FUBM "JBOE.FNPSZ8BMMz *&&&.JDSP 'JH
B ΑΓసࡌ Ϟσϧύϥϝʔλ͕ Ͱഒ "*ΞΫηϥϨʔλʢ(16 516ʣͷϝϞϦྔͰഒ 7 1. ࢄֶशͱΠϯϑϥͷجຊ -
分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻʢ51ʣ ॱ ߋ৽ ( 1 6
ٯ ύΠϓϥΠϯฒྻʢ11ʣ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6 ϞσϧͷΛ࿈ଓͨ͠εςʔδʹׂ ݸʑͷͷςϯιϧʢߦྻʣΛׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 8 1. ࢄֶशͱΠϯϑϥͷجຊ -
演算より通信がボトルネックへ ˞4BQJP "NFEFP FUBM4DBMJOHEJTUSJCVUFENBDIJOFMFBSOJOHXJUI*O/FUXPSLBHHSFHBUJPO/4%* ˞,MFOL #FOKBNJO FUBM"OJOOFUXPSLBSDIJUFDUVSFGPSBDDFMFSBUJOHTIBSFENFNPSZ NVMUJQSPDFTTPSDPMMFDUJWFTz *4$"
ਂֶशͷֶश࣌ؒʹΊΔ"MMSFEVDFͷׂ߹ਪఆɺ ˞ ˞ (16ͷුಈখੑೳͰഒ৳ͼͨɻҰํͰωοτϫʔΫଳ Ҭͷഒ৳ʹΛཁͨ͠ ˞ (CQTωοτϫʔΫͰ (CQTωοτϫʔΫͰr 9 1. ࢄֶशͱΠϯϑϥͷجຊ -
3%." ʢ04ΧʔωϧόΠύεʹΑΓ$16 ͱ%3".Λܦ༝ͤͣʹసૹʣ *O fi OJCBOE /*$ʹϝϞϦసૹΦϑϩʔυ 3%."ΛωΠςΟϒ αϙʔτͨ͠ઐ༻ωο τϫʔΫ૬ޓଓٕज़
3P$&W *1ϧʔςΟϯάՄೳͳ6%1ϕʔε3%." ϩεϨε ϑϩʔ੍ޚ੍ޚʹΑΓύέοτϩεΛθϩʹ͚ۙͮΔ ˞-J 8FOYVF FUBM 6OEFSTUBOEJOHDPNNVOJDBUJPODIBSBDUFSJTUJDTPGEJTUSJCVUFEUSBJOJOHz "1/FU ˞'JHVSF B ΑΓసࡌ ネットワーク通信の 高 速化技術 10 1. ࢄֶशͱΠϯϑϥͷجຊ -
AIスパコンのクラスタ構成例 ,PLPMJT "QPTUPMPT FUBM 3FWJTJUJOH3FMJBCJMJUZJO-BSHFTDBMF.BDIJOF -FBSOJOH3FTFBSDI$MVTUFSTz )1$" 'JHΑΓసࡌ ʢετϨʔδؔ࿈লུʣ αʔόɾϥοΫɾ1PEؒ
ΠϯλʔίωΫτωοτϫʔΫ d(CQT αʔόΠϯλʔίωΫτ (#T 11 1. ࢄֶशͱΠϯϑϥͷجຊ -
さくらONEとは 2. ͘͞ΒONE LLMの開発 用 にさくらインターネットで 自 社構築したマネージドHPCクラスタ 501 )1--*/1"$,
ੈքҐ )1$( )1$ԋࢉΞϓϦέʔγϣϯ ੈքҐ )1-.Y1 "*͚ͷ୯ਫ਼ਫ਼ԋࢉੑೳ ੈքҐ *0 ετϨʔδ*0ੑೳ ੈքҐ インターコネクトネットワークは、 TOP500の上位100位以内では唯 一 ベンダー中 立 でオープンな技術を採 用 ISC2025にてスパコン性能ランキングTOP500 世界49位を獲得 SONiC OSと800 GbE Ethernet 13 -
さくらONEの システム概要 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"* 1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOUJO+BQBOBS9JW OPEFT $16DPSFT (16T /*$T
(C& (C&/8 (C&4UPSBHF/8 1#4UPSBHF 2. ͘͞ΒONE 14 -
さくらONEのクラスタ構成 4QJOF -FBG 7FOEPS40/J$3P$&W ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE 0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS)1$*OWFTUNFOU JO+BQBOBS9JW ͷ-FBG4QJOFߏ /*$
ʜʜ (C& (C& (16 (16 (16 (16 /748*5$) (16 (16 (16 (16 3BJM0QUJNJ[FEτϙϩδ ϑϧόΠηΫγϣϯ ܭࢉ ϊʔυ /*$ ʜʜ ετϨʔδγεςϜ ετϨʔδ༻/*$ %%/&4/79/%3 ʜʜ ʜʜ 15 -
分散学習ベンチマーク実施の動機 • TOP500におけるベンチマークは 一 般の計算機性能を計測するものである • さくらONEがフォーカスするLLM学習における性能を計測したい • 業界の標準的なベンチマークとしてMLPerfに着 目
した • MLPerfベンチマークスイート:Training/Inference/Storageなど11種 • Trainingのうち、さくらONEの想定ユースケースに近しい、GPT-3 175B事 前学習とLlama2ファインチューニングを選択 ຊߨԋͷର 3. LLMࢄֶशͷϕϯνϚʔΫ 18 -
MLPerf Training • スコアは学習開始から学習終了までの実時間(min) • 層数や学習率、シーケンス 長 などの学習関連のハイパーパラメータは固定 • 学習データセットは
用 意されている • 損失が規定の閾値に達すると実 行 を停 止 (GPT-3ではLog Perplexityが2.69) • ある程度学習を進められた状態を保存したチェックポイントから学習開始 • 学習中のチェックポインティング(ストレージへの定期保存)はなし モデル側のパラメータ固定や学習終了条件の明 示 ˞$MPTFE%JWJTJPOͷ߹ 3. LLMࢄֶशͷϕϯνϚʔΫ 19 -
GPT-3事前学習のスコア 0SHBOJ[BUJPO 4ZTUFN/BNF (16 .PEFM/BNF -BUFODZ NJO /7*%*" &PTEGX@O
)49.(# 0SBDMF Y#.(16) )49.(# 0SBDMF Y#.(16) )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# 4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# IUUQTNMDPNNPOTPSHCFODINBSLTUSBJOJOH3PVOEW͔ΒҰ෦ൈਮ ˞VOWFSJ fi FE.-$PNNPOTڠձʹ Αͬͯݕূ͞Ε͍ͯͳ͍݁ՌͰ͋Δɻ 3. LLMࢄֶशͷϕϯνϚʔΫ 20 -
GPT-3事前学習(規模が近い他システム 比 較①) 0SHBOJ[BUJPO 4ZTUFN/BNF (16 .PEFM/BNF -BUFODZ NJO 4",63"
JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# (16ɺ(16Ϟσϧɺ/8ଳҬ෯͕ಉ݅Ͱͷൺֱ &PT@Oʹରͯ͠ɺ4",63"0/&@Oͷֶश࣌ؒͱͳͬͨ 3. LLMࢄֶशͷϕϯνϚʔΫ 21 -
GPT-3事前学習(規模が近い他システム 比 較②) (16͕ۙ͘͠ಉҰϞσϧɺ/8ଳҬ෯ಉҰͰͷൺֱ 0SHBOJ[BUJPO 4ZTUFN/BNF (16 .PEFM/BNF -BUFODZ NJO
4",63" JOUFSOFU 4",63"0/&@O )49.(# VOWFSJ fi FE /7*%*" &PT@O )49.(# &PT@OΛԾʹϊʔυͱ͢ΔͱཧࢉͰ NJO ͱͳΓɺ 4",63"0/&@Oͷֶश࣌ؒ ˞4",63"0/&ʹෆརͳ݅Ͱͷൺֱ ྆ऀ1PEʢ46ʣ ԣஅ௨৴͋Γ 3. LLMࢄֶशͷϕϯνϚʔΫ 22 -
分散学習の代表的な 目 標性能指標 εϧʔϓοτ ܭࢉޮ .'6 .PEFM'MPQT6UJMJ[BUJPO Ϟσϧ͕ཧతʹ༻͢Δ'-014 ϋʔυΣΞͷϐʔΫ'-014
ֶशεϧʔϓοτɹUPLFOTTFD TBNQMFTTFD ԋࢉεϧʔϓοτɹ'-014ʢ'MPBUJOHQPJOU0QFSBUJPOT1FS4FDPOEʣ ϨΠςϯγ 5JNFUP5SBJOɹֶश։͔࢝Βྃ·Ͱͷ࣌ؒ 3. LLMࢄֶशͷϕϯνϚʔΫ 23 -
GPT-3事前学習(さくらONEスケーリング評価) ϊʔυ 5JNFUP5SBJO ʢNJOʣ .'6
5'-014(16 5PLFOTTFD(16 ֶश࣌ؒॖɹɹഒ ϊʔυ͕ഒʹରͯ͠ )'1ࠞ߹ਫ਼Ͱͷԋࢉޮʢ.'6ʣͷ૬ʢr5'-014HQVʣ ԋࢉޮ(16ɹɹɹ ରཧεέʔϦϯά ˞ৄࡉεϥΠυΛࢀর 3. LLMࢄֶशͷϕϯνϚʔΫ 24 -
GPT-3事前学習(パラメータの組み合せ) 51 11 %1 (MPCBM #4 .JDSP #4 '-014 (16
5JNFUP5SBJO ʢNJOʣ /PEBUB 51ςϯιϧฒྻ 11ύΠϓϥΠϯฒྻ %1σʔλฒྻ (MPCBM#4άϩʔόϧόοναΠζ .JDSP#4ϚΠΫϩόοναΠζ 96ノード શମͰݸͷύϥϝʔλͷ͏ͪදతͳͷΛൈਮ ςϯιϧฒྻͷ ௨৴Λαʔό /8Ͱ݁ͤͨ͞ ͍ͨΊ51 73".ʹऩ·Δൣ ғͰ%1Λ্͛Ε ͍͍ͱࢥ͍ͬͯ ͕ͨҙ֎ͱͦ͏Ͱ ͳ͍ εΩοϓ 3. LLMࢄֶशͷϕϯνϚʔΫ 25 -
GPT-3事前学習の結果の考察 • さくらONEでは相場の範囲内の演算効率を達成できている。 • インターコネクト通信が 十 分 高 速。分散学習のチューニングも相場レベル。 •
一方 で、さくらONEはEOSと32ノード 比 較で-8.3%、96ノード換算 比 較 で-20.7%の性能となった。 • 要因の可能性:Ethernet(RoCEv2)対In fi niband、あるいは単にチューニング不 足 • インターコネクトのトポロジ構成(Rail Optimized)は同 一 のはず • ソフトウェアスタックはOSとカーネルモジュール(ドライバなど)以外のバー ジョンは同 一 のはず 3. LLMࢄֶशͷϕϯνϚʔΫ 26 -
苦労したこと • MLPerf公式のリファレンス実装より、過去のラウンドで投稿・公開された実装 のほうが整理されている。リファレンス実装から始めてしまった。 • コンテナでバージョンが固定されていても、物理構成の微妙な差異によって動 かない設定やコードはいくつかあり、修正の必要あり • 分散学習の各種概念(3D並列、集団通信など)やソフトウェア(Slurm、 NeMo、Megatron)を新規に学ぶ必要があった
• ベンチマーク期間は限られるため、寝る前にジョブを複数個投 入 して朝結果を みる 生 活をしていた ˞IUUQTHJUIVCDPNNMDPNNPOTUSBJOJOH@SFTVMUT@WUSFFNBJO/7*%*" ˞ 27 3. LLMࢄֶशͷϕϯνϚʔΫ -
本講演のまとめ • LLM学習で必要とされる基本的な並列化技術やNW技術、クラスタ構成を簡単に 解説した。 • さくらインターネットではクラスタ管理がマネージド化されたスパコン「さくら ONE」を開発し、TOP500でオープンなNW技術の範疇で49位を達成した。 • さくらONEでGPT-3の事前学習ベンチマークを実施し、相場の範囲内の演算効率 を達成。チューニングに課題の余地あり。
• (時間都合で割愛)Llama2ファインチューニングではベンチマーク参加企業らと 同等程度の性能を達成した。 29 4. ·ͱΊ -
今後の課題 • トップダウンアプローチ 初 手 でパラメータ設定を変えず、モデルアーキテ クチャからメモリ量や通信量を推定し、最適なパラメータの仮説を 立 てる •
自 動チューニングにより負荷試験の試 行 錯誤を 高 速化 • DeepSpeed-Autotuning,Galvatron,Merak • FixstarsさんがAI Boosterを提供 • オブザーバビリティの 高 度化によるチューニングの効率化 ˞ϑΟοΫελʔζɺ͘͞ΒΠϯλʔωοτ͕ఏڙ͢ΔʮߴՐྗ1):ʯͷ࠷৽(16ࡌػΛ"*#PPTUFSͰύϑΥʔϚϯε࠷େԽ IUUQTOFXT fi YTUBSTDPN 0CTFSWBCJMJUZ$POGFSFODF5PLZPʢʣʹͯߨԋ༧ఆ ˞ εΩοϓ 30 4. ·ͱΊ -
(宣伝)さくらインターネットの 高 火 力 サービス 高火力 PHY 高火力 VRT 高火力
DOK さくらONE (提供予定) ベアメタル 仮想マシン コンテナ IUUQTHQVTBLVSBBEKQHQVDMPVETFSWJDF େن খن (V100, H100) (V100, H100) (H100,H200 B200) 32 4. ·ͱΊ -
参考 文 献 • Yuichiro Ueno, PFNにおけるアクセラレータ間通信の実際, MPLS Japan 2024,
https:// speakerdeck.com/pfn/mpls-japan-2024 . • Kazuki Fujii, GENIAC: 172B 事前学習知 見 , 2024 https://zenn.dev/tokyotech_lm/articles/ deb8012251bb68. • NVIDIA Corporation, NVIDIA DGX SuperPOD: Next GenerationScalable Infrastructure for AI Leadership, 2023. • NVIDIA Corporation, NVIDIA NeMo Framework User Guide. • Casey, Analysis of NVIDIA ’ s Latest Hardware: B100/B200/GH200/NVL72/SuperPod, https://www. fi bermall.com/blog/nvidia-b100-b200-gh200-nvl72-superpod.htm • その他本 文 スライド中に引 用 した論 文 など 33 -
本講演で触れていないこと • GPUそのもののアーキテクチャや処理系、低精度/半精度/混合精度計算 • 集団通信やRingアルゴリズムの詳細 • RDMA、GPUDirect RDMA、ECN/PFC/DCQCNなどインターコネクトネットワークの技術 • Zero-1/2/3,
Activation Checkpointing, FlashAttentionなどのメモリ使 用 量削減法 • ストレージの構成とその 用 途 • ソフトウェアスタックにおける各要素の詳細 • モニタリング・オブザーバビリティ • … 35 Appendix -
GPUメモリ上の代表的なデータ ύϥϝʔλʢXFJHIUTʣ ΦϓςΟϚΠβঢ়ଶ (1673".ۭؒ Ϟσϧঢ়ଶʢֶशεςοϓΛԣஅʣ Ұ࣌σʔλʢεςοϓͷΈʣ ೖྗϛχόον தؒ׆ੑԽʢBDUJWBUJPOTʣ ॏΈߦྻͱόΠΞεͳͲ '1ϚελॏΈɺޯͷ
ཤྺɾ౷ܭྔͳͲ ಛྔɾϥϕϧͳͲ ॱൖͷ͝ͱͷܭࢉ݁Ռ ޯʢHSBEJFOUTʣ ٯൖͰܭࢉ͞ΕΔ݁Ռ େنϞσϧ ̍(16ϝϞϦ ʹΓΒͳ͍ 36 Appendix -
AIスパコンのソフトウェアスタック例 多層に折り重なった複雑な構成 εέδϡʔϥ 4MVSN ,VCFSOFUFT ίϯςφ /7*%*"$POUBJOFS5PPMLJU &OSPPU 1ZYJT 4JOHVSBMJUZ
ࢄֶशϑϨʔϜϫʔΫ .FHBUSPO-. %FFQ4QFFE 1ZUPSDI'4%1 /F.P ֶशϑϨʔϜϫʔΫ 1Z5PSDI 5FOTPS fl PX +"9 ूஂ௨৴ϥΠϒϥϦ /$$- 3$$- 3%."ϥΠϒϥϦ JCWFSCT SENBDPSF ܭࢉߴԽϥΠϒϥϦ DV#-"4DV#-"4-U DV%// 5SBOTGPSNFS&OHJOF ϥϯλΠϜυϥΠό $6%" OWJEJBESJWFST ˞IUUQTEPDTOWJEJBDPNOFNPGSBNFXPSLVTFSHVJEFMBUFTUTPGUXBSFDPNQPOFOUWFSTJPOTIUNM Ϣʔβʔ͕ ֶशδϣϒΛൃߦ 37 Appendix -
TOP500 (ISC2025) 世界49位 国内9位 3BOL 4ZTUFN 0SHBOJ[BUJPO 3NBY 1'MPQT
'VHBLV 3*,&/$FOUFSGPS$PNQVUBUJPOBM 4DJFODF "#$* "*45 $)*& 4PGU#BOL$PSQ $)*& 4PGU#BOL$PSQ "#$*2 "*45 '15"*'BDUPSZ+BQBO '15"*'BDUPSZ+BQBO .JZBCJ( +PJOU$FOUFSGPS"EWBODFE)JHI 1FSGPSNBODF$PNQVUJOH 546#".& $** *OTUJUVUFPG4DJFODF5PLZP 4",63"0/& 4",63"*OUFSOFU*OD 1SVOVT4PMVUJPOT*OD ࠃγεςϜ্ҐͷΈൈਮ IUUQTUPQPSHMJTUTUPQ 38 Appendix -
H100 BF16/FP8混合精度 MFU • ピークFLOPSとして、 文 献では1,979 TFLOPS を採 用
されている • FP8 Tensor Coreは 3,958 TFLOPS(※1)だが、Sparseなしなら1,979 ˞/7*%*")5FOTPS$PSF(16%BUBTIFFUIUUQTSFTPVSDFTOWJEJBDPNFOVTIPQQFSBSDIJUFDUVSFOWJEJBUFOTPSDPSFHQV EBUBTIFFU ˞IUUQTDBUBMPHOHDOWJEJBDPNPSHTOWJEJBUFBNTEHYDCFODINBSLJOHSFTPVSDFTMMBNBCEHYDCFODINBSLJOHD ˞ -MBNB# .'6d ˞ ˞IUUQTTFNJBOBMZTJTDPNIDMVTUFSTQPXFSOFUXPSL .'6 ˞ USJMMJPOQBSBNFUFSUSBJOJOH -MBNB# ˞IUUQTTFNJBOBMZTJTDPNIWTHCOWMUSBJOJOHCFODINBSLT .'6 ˞ ˞IUUQTXXXEBUBCSJDLTDPNKQCMPHUVSCPDIBSHFEUSBJOJOHPQUJNJ[JOHEBUBCSJDLTNPTBJDBJTUBDLGQ .15CdC .'6d ˞ 39 Appendix -
はじめて分散学習やスパコンに触れた所感 クラウドオペレーター視点 • クラウド( 足 りなければ即スケールアウト) vs HPC(現状リソース使い切り) • Webアプリに
比 べカスタムのロジックが少ない。フレームワーク層で吸収され、 ユーザーは設定に関するコーディングにのみ注 力 する • フレームワーク設定の 一 つ 一 つが論 文 で提案されたものが多いため奥深い • オブザーバビリティが不 足 しがち。集団通信のトレーシングをやってみたくなる 40 Appendix